d o * s 机 科学 UN 


WILEY 


数据 结构 与 算法 
Python 语 言 实 现 


WIER * T. 二 德里 奇 (Michael T. Goodrich ) 
E 罗 伯 托 : EU yu (Roberto Tamassia ) E 
VoL * H. Xí pL S (Michael H. Goldwasser ) 


张 晓 赵 晓 南 等 详 
Data Structures and Algorithms in Python 


Data Structures 
& Algorithm 


"ELO Same OOE 
B Ra Bata es e. 
$^ eee ze 


: watt S NA 
@ oe or sme AT 
$9. AT SA OY 
Be E GH ; ie Br Wee. 


in Python 


Mickaet T. GoopricH © Roserto Tamassia * MicHAE! H. Gotowasser 


DLE REGE E: 


— China Machine Press 


^ x 
ES 





© 


数据 结构 与 算法 
Python 语言 实现 


迈克 尔 … 工 . Trí R (Michael T, Goodrich ) 
[3X] 罗 伯 托 : 塔 马 西亚 ( Roberto Tamassia ) = 
Xivi^R - H. X8 RA. (Michael H. Goldwasser ) 


张 晓 赵 晓 南 等 译 





Data Structures and Algorithms in Python 


MICHAEL T. GoopricH ® Roserto Tamassta * MICHAEL H. GOLDWASSER 





机 械 工 业 出 版 社 


China Machine Press 


图 书 在 版 编目 (CIP) 数据 


数据 结构 与 算法 : Python 语言 实现 / ( 美 ) 迈克 尔 * T. SEA (Michael T. Goodrich) 
等 著 ; 张 晓 等 译 . 一 北京 : 机 械 工 业 出 版 社 ，2018.9 

(计算 机 科学 丛书 ) 

书 名 原文 : Data Structures and Algorithms in Python 








ISBN 978-7-111-60660-4 


L 数 … IL OW Oak Il. 数据 结构 ”@@ 算 法 分 析 加 软件 工具 -程序 设计 
IV. DTP311.12 Q TP311.561 


中 国 版 本 图 书馆 CIP 数据 核 字 ( 2018 ) 第 183790 号 





本 书 版 权 登 记号 : 图 字 01-2016-6251 


Copyright O 2013 John Wiley & Sons, Inc. 

All rights reserved. This translation published under license. Authorized translation 
from the English language edition, entitled Data Structures and Algorithms in Python, ISBN 
9781118290279, by Michael T. Goodrich, Roberto Tamassia, and Michael H. Goldwasser, 
Published by John Wiley & Sons . No part of this book may be reproduced in any form 
without the written permission of the original copyrights holder. 

本 书 中 文 简体 字 版 由 约翰 威 立 父子 公司 授权 机 械 工 业 出 版 社 独家 出 版 。 未 经 出 版 者 书面 许可 ， 不 
FECES Hill RIA BAK. 

AAR Wiley 防伪 标签 ， 无 标签 者 不 得 销售 。 


本 书 采 用 Python 语言 讨论 数据 结构 和 算法 ， 详 细 讲 解 其 设计 、 分 析 与 实现 过 程 ， 是 一 本 内 容 全 面 
且 特 色 鲜 明 的 教材 。 书 中 将 面向 对 象 视角 贯穿 始终 ， 充 分 利用 Python 语言 优美 而 简洁 的 特点 ， 强 调 代 
码 的 健壮 性 和 可 重用 性 ， 关 注 各 种 抽象 数据 类 型 以 及 不 同 算法 实现 策略 的 权衡 。 

本 书 适 合作 为 高 等 院 校 初 级 数据 结构 或 中 级 算法 导论 课程 的 教材 ， 也 适合 相关 工程 技术 人 员 阅 读 
参考 。 


出 版 发 行 : 机 械 工 业 出 版 社 (北京 市 西城 区 百 万 庄 大 街 22 号 “邮政 编码 : 100037) 


责任 编辑 : 曲 4H 责任 校对 : 李 秋 荣 

E] oi: 北京 市 荣 盛 彩色 印刷 有 限 公司 版 ”次 : 2018 年 9 月 第 1 版 第 1 次 印刷 
F ”本 : 185mmx260mm 1/16 EL 9k: 30.75 

"B 号; ISBN 978-7-111-60660-4 3E —— ffr: 109.00 7% 


凡 购 本 书 ， 如 有 缺 页 、 倒 页 、 脱 页 ， 由 本 社 发 行 部 调换 
客服 热线 : (010) 88378991 88361066 投稿 热线 : (010) 88379604 
购书 热线 : (010) 68326294 88379649 68995259 读者 信箱 : hzjsj@hzbook.com 


版 权 所 有 “ 侵权 必 究 
封底 无 防伪 标 均 为 盗版 
本 书法 律 顾问 : 北京 大 成 律师 事务 所 韩 光 / 邹 晓 东 


| 出 版 者 的 话 


Data Structures and Algorithms in Python 


文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 斐 出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真 正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 赣 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brian W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. 
Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提 供 了 
中 肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书籍 在 读者 中 树立 了 恨 好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 
的 图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 
深化 ,教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 
电子 邮件 : hzjsj@hzbook.com 


联系 电话 : (010) 88379604 SENE 
联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 华章 教育 


邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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数据 结构 是 计算 机 科学 与 技术 专业 的 核心 课程 ， 是 程序 设计 、 编 译 原理 、 数 据 库 等 课程 
的 基础 。 对 于 从 事 计 算 机 应 用 尤其 是 软件 开发 的 工程 技术 人 员 而 言 ， 掌 握 数 据 结构 的 相关 知 
识 和 常用 算法 ， 对 提高 开发 效率 和 编程 质量 都 有 着 非常 重要 的 作用 。 国 内 外 有 很 多 优秀 的 数 
据 结构 教材 ， 而 且 有 基于 C. CH, Java 等 多 种 程序 设计 语言 编写 的 版 本 ,但 是 采用 Python 
语言 描述 的 并 不 多 见 。 

Python 是 一 种 面向 对 象 的 直译 式 计 算 机 程序 设计 语言 ， 语 法 简洁 清晰 ， 类 库 丰 富强 大 。 由 于 
代码 的 平台 无 关 性 以 及 极 简 的 编程 思想 ，Python 近年 来 成 为 国内 外 各 大 科研 院 校 和 IT 企业 在 教 
学 活动 、 科 学 研究 以 及 应 用 软件 开发 中 频繁 使 用 的 程序 设计 语言 。 例 如 ， 卡 内 基 ' 梅 隆 大 学 的 编 
程 基础 课程 、 麻 省 理工 学 院 的 计算 机 科学 及 编程 导论 课程 就 使 用 Python 语言 讲授 。 我 们 西北 工业 
大 学 也 开设 了 Python 程序 设计 的 选修 课 ， 受 到 学 生 的 热烈 次 迎 。 在 实践 领域 ，NumPy SciPy 等 
是 利用 Python 语言 开发 的 用 于 科学 计算 的 工具 包 ， 著 名 的 计算 机 视觉 库 OpenCV、 三 维 可 视 化 库 
VTK 等 也 是 使 用 Python 开发 的 。 在 TIOBE 编程 语言 排行 榜 上 ，Python 排名 第 五 ， 排 在 Java、C、 
C++ 和 C# È Jao Python 语言 也 在 大 数据 分 析 、 网 络 爬 虫 、 量 化 投资 等 新 兴 热 点 领域 广泛 使 用 。 

对 于 计算 机 专业 的 学 生 和 计算 机 应 用 行业 的 从 业 人 员 而 言 ， 从 Python 开始 学 习 程 序 设 
计 和 数据 结构 入 门 门槛 低 ， 学 习 曲 线 平缓 。 国 内 已 有 大 量 介 绍 Python 程序 设计 的 书籍 ， 但 
多 局 限 在 Python 语法 和 特定 软件 包 的 使 用 方面 。 本 书 是 难得 的 系统 讲解 如 何 使 用 Python iff 
言 设 计 并 实现 数据 结构 和 基本 算法 的 书籍 。 

本 书 作 者 Goodrich 教授 、Tamassia 教授 等 人 先后 撰写 了 《 Data Structures and Algorithms 
in Java 》 和 《 Data Structures and Algorithms in C++ 》 等 书籍 ， 对 数据 结构 和 常用 算法 的 理 
解 非常 透彻 。 但 本 书 并 不 是 简单 地 将 这 些 书 籍 中 的 代码 描述 部 分 替换 成 Python 语言， 而 是 
充分 利用 Python 语言 的 优势 ， 以 完整 代码 的 方式 实现 了 各 种 算法 和 数据 结构 。 在 此 基础 上 ， 
还 大 量 介 绍 了 Python 语言 内 建 的 数据 类 型 和 一 些 常用 基本 库 及 接口 的 相关 知识 。 

书 中 介绍 的 数据 结构 和 算法 包括 完整 的 设计 、 分 析 和 实现 过 程 ， 非 常 适 合作 为 初级 数据 
结构 课程 的 教材 ， 同 时 也 可 以 作为 中 级 算法 导论 课程 的 教材 ， 或 作为 计算 机 基础 知识 有 限 的 
工程 技术 人 员 的 参考 书 。 通 过 学 习 本 书 ， 读 者 能 够 更 加 灵活 、 高 效 地 运用 Python 语言 编写 
满足 自己 需求 的 程序 。 

非常 荣幸 能 有 机 会 翻译 这 样 一 本 优秀 的 教材 。 对 于 书 中 的 专业 术语 ， 我 们 尽量 沿用 了 现 
有 的 习惯 翻译 。 不 过 由 于 时 间 和 水 平 所 限 ， 难 免 出 现 错误 和 不 当 之 处 ， 奶 切 希 望 广大 读者 不 
音 批 评 指正 。 

最 后 ， 感 谢 作 者 为 我 们 呈现 了 一 本 优秀 的 教材 ; 感谢 出 版 社 的 信任 ， 将 这 项 有 趣 而 又 有 
意义 的 工作 交 给 我 们 完成 ; 还 要 感谢 所 有 参与 本 书 翻译 和 校对 工作 的 教师 和 研究 生 ， 他 们 是 
EXER. ER. BR, Pee. be. WER, FLO. ARS. 


张 晓 
2018 年 4 月 
于 启 真 湖 畔 
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高 效 数据 结构 的 设计 与 分 析 ， 长 期 以 来 一 直 被 认为 是 计算 领域 的 一 个 重要 主题 ， 同 时 
也 是 计算 机 科学 与 计算 机 工程 本 科教 学 中 的 核心 课程 。 本 书 介 绍 数据 结构 和 算法 ， 包 括 其 设 
计 、 分 析 和 实现 ， 可 在 初级 数据 结构 或 中 级 算法 导论 课程 中 使 用 。 我 们 随后 会 更 详细 地 讨论 
如 何在 这 些 课程 中 使 用 本 书 。 

为 了 提高 软件 开发 的 健壮 性 和 可 重用 性 ， 我 们 在 本 书 中 采取 一 致 的 面向 对 象 的 视角 。 
面向 对 象 方法 的 一 个 主要 思想 是 数据 应 该 被 封装 ， 然 后 提供 访问 和 修改 它们 的 方法 。 我 们 
不 能 简单 地 将 数据 看 作 字 节 和 地 址 的 集合 ， 数 据 对 象 是 抽象 数据 类 型 (Abstract Data Type, 
ADT) 的 实例 ， 其 中 包括 可 在 这 种 类 型 的 数据 对 象 上 执行 的 操作 方法 的 集合 。 我 们 强调 的 是 
对 于 一 个 特定 的 ADT 可 能 有 几 种 不 同 的 实现 策略 ， 并 探讨 这 些 选 择 的 优点 和 缺点 。 我 们 几 
乎 为 书 中 的 所 有 数据 结构 和 算法 都 提供 了 完整 的 Python 实现 ， 并 介绍 了 将 这 些 实现 组 织 为 
可 重用 的 组 件 所 需 的 重要 的 面向 对 象 设计 模式 。 

通过 阅读 本 书 ， 读 者 可 以 : 

e 对 常见 数据 集合 的 抽象 有 一 定 了 解 〈 如 栈 、 队 列 、 表 、 树 、 图 )。 

o 理解 生成 常用 数据 结构 的 高 效 实现 的 算法 策略 。 

© 通过 理论 方法 和 实验 方法 分 析 算 法 的 性 能 ， 并 了 解 竞争 策略 之 间 的 权衡 。 

e 明智 地 利用 编程 语言 库 中 已 有 的 数据 结构 和 算法 。 

© 拥有 大 多 数 基 础 数据 结构 和 算法 的 具体 实现 经 验 。 

e 应 用 数据 结构 和 算法 来 解决 复杂 的 问题 。 

为 了 达到 最 后 一 个 目标 ， 我 们 在 书 中 提供 了 数据 结构 的 很 多 应 用 实例 ， 包 括 : 文本 处 理 
系统 ， 结 构 化 格式 (如 HTML) 的 标签 匹配 ， 简 单 的 密码 技术 ， 文 字 频 率 分 析 ， 自 动 几 何 布 
局 ， 霍 夫 曼 编 码 ，DNA 序列 比 对 ， 以 及 搜索 引擎 索引 。 


本 书 特色 


本 书 主要 基于 由 Goodrich 和 Tamassia 所 著 的 《 Data Structures and Algorithms in Java ), 
以 及 由 Goodrich, Tamassia 和 Mount 所 著 的 《 Data Structures and Algorithms in C++ 》 编 写 
而 成 。 然 而 ， 我 们 并 不 是 简单 地 用 Python 语言 实现 以 上 书籍 的 内 容 。 为 了 充实 内 容 ， 我 们 
重新 设计 了 本 书 : 

e 对 全 部 代码 进行 了 重新 设计 ， 以 充分 利用 Python 的 优势 ， 如 使 用 生成 带 迭 代 集 合 的 元 素 。 

e {E Java 和 C++ 版 本 中 ， 我 们 提供 了 很 多 伪 代 码 ， 而 本 书 则 提供 了 Python 实现 的 完 

整 代码 。 

e 在 一 般 情 况 下 ，ADT 被 定义 为 与 Python 内 建 数据 类 型 和 Python 的 collections 模块 

具有 一 致 的 接口 。 

e 55 IURATI I Python 中 基于 动态 数组 的 内 置 数据 结构 ， 如 list, tuple 和 str 类。 

新 增 的 附录 A 提供 了 关于 str 类 功能 的 进一步 讲解 。 

e 重新 绘制 或 修改 了 超过 450 幅 插 图 。 

e 经 过 新 增 和 修订 ， 练习 的 总 数 达 到 750 个 。 
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在 线 资源 
本 书 提供 一 系列 丰富 的 在 线 资源 ， 可 访问 以 下 网 站 获取 : 


www.wiley.com/college/goodrich 

鼓励 学 生 在 学 习 本 书 时 使 用 这 个 网 址 ， 以 更 有 效 地 进行 练习 并 提高 对 所 学 知识 的 认识 。 
也 欢迎 教师 使 用 本 网 站 来 帮助 规划 、 组 织 和 展示 他 们 的 课程 材料 。 对 于 教师 和 学 生 而 言 ， 网 
站 中 包含 一 系列 与 本 书 主题 相关 的 教学 资源 ， 由 于 它们 是 有 附加 价值 的 ， 所 以 一 些 网 上 资源 
受 密码 保护 。 

对 于 所 有 的 读者 ， 尤 其 是 学 生 ， 我 们 有 以 下 资源 : 

e 书 中 所 有 Python 程序 的 源 代 码 。 

e 提供 给 教师 的 PDF 讲义 版 PPT (每 页 四 张 )。 

e 保存 所 有 练习 提示 的 数据 库 ， 以 练习 的 编号 为 索引 。 

对 于 使 用 本 书 的 教师 ， 我 们 有 以 下 额外 的 教学 辅助 资源 : 

e 本 书 练习 的 答案 。 

e 书 中 所 有 图 形 和 插图 的 彩色 版 本 。 

e PPT fil PDF 版 本 的 幻灯 片 ， 其 中 PDF 版 本 为 每 页 一 张 。 

PPT 是 完全 可 编辑 的 ， 教 师 可 根据 自己 的 课程 需求 进行 修改 。 在 教师 使 用 本 书 作为 教材 
时 ， 所 有 的 在 线 资源 不 收取 额外 费用 。 


内 容 和 组 织 


书 中 各 章节 的 内 容 循序 渐进 ， 适 于 教学 。 从 Python 编程 和 面向 对 象 设计 的 基础 开始 ， 然 
后 逐渐 增加 如 算法 分 析 和 递归 之 类 的 基础 技术 。 在 本 书 的 主体 部 分 中 ， 我 们 展示 了 基本 的 数据 
结构 和 算法 ， 并且 包 括 对 内 存 管理 的 讨论 (也 是 数据 结构 的 架构 基础 )。 本 书 的 章节 安排 如 下 : 

第 1 章 Python AT] 

第 2 章 面向 对 象 编程 

第 3 章 算法 分 析 

第 4 章 递归 

第 5 章 基于 数组 的 序列 

第 6 章 栈 、 队 列 和 双 端 队列 

第 7 章 链表 

第 8 章 p 

第 9 章 优先 级 队列 

第 10 3€ 映射、 哈 希 表 和 跳跃 表 

第 11 章 搜索 树 

第 12 章 排序 与 选择 

第 13 章 文本 处 理 

第 14 章 图 算法 

第 15 章 内存 管理 和 B 树 

O 关于 本 书 教 辅 资源 ， 只 有 使 用 本 书 作 为 教材 的 教师 才 可 以 申请 。 需 要 的 读者 可 访问 华章 网 站 www. 


hzbook.com 下 载 PPT 、 练 习 答 案 和 源 代 码 。 如 果 需 要 其 他 资源 ， 可 向 约翰 威 立 出 版 公司 北京 代表 处 申 
请 ， 电 话 010-84187869， 电 子 邮件 sliang@wileycom。 一 一 编辑 注 
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MRA Python 中 的 字符 串 
附录 B 有 用 的 数学 定理 


预备 知识 

我 们 假设 读者 至 少 接触 过 一 种 高 级 语言 ， 如 C、C++、Python 或 Java， 可 以 理解 相关 高 
级 语言 的 主要 概念 ， 包 括 : 

e 变量 和 表达 式 。 

e 决策 结构 (if 语句 和 switch 语句 )。 

e 迭代 结构 (for 循环 和 while 循环 )。 

e. 因数 (无论 是 过 程式 方法 还 是 面向 对 象 方法 )。 

对 于 已 经 熟悉 这 些 概念 但 还 不 清楚 如 何在 Python 中 应 用 的 读者 ， 我 们 建议 将 第 1 章 作 
为 Python 语言 的 人 门 。 这 本 书 主要 讨论 数据 结构 ， 而 不 是 讲解 Python， 因 此 并 没有 详尽 介 
绍 Python。 

直到 第 2 章 才 开始 使 用 Python 中 的 面向 对 象 编程 ， 这 一 章 对 于 那些 Python 新 手 以 及 熟 
悉 Python 但 不 熟悉 面向 对 象 编 程 的 人 都 是 有 用 的 。 

就 数学 背景 而 言 ， 我 们 假定 读者 多 少 熟 悉 些 高 中 数学 知识 。 即 便 如 此 ， 在 第 3 章 中 ,我 
们 先 讨论 了 算法 分 析 的 7 个 最 重要 的 功能 。 若 所 涉及 的 内 容 超 出 了 这 7 个 功能 ， 则 作为 可 选 
章节 ， 用 星 号 (*) tric. Mok B 对 其 他 有 用 的 数学 定理 做 了 总 结 ， 包 括 初 等 概率 等 。 


计算 机 科学 课程 的 设计 


为 了 帮助 教师 在 IEEE/ACM 2013 的 框架 下 设计 教学 课程 ， 下 表 描 述 了 本 书 涵盖 的 知识 
要 点 。 


知识 要 点 相关 章节 
AL/ 基本 分 析 第 3 章 ，4.2 节 ，12.2.4 节 
AL/ 算 法 策略 122.1'5, 13.221 47, 13:3 45, 13.4.2 9 

44.3 5, 55.27, 94157, 9.3 $5, 102-5, 1LI B, 13215, $8 12 3€, 58 

AL/ 基本 数据 结构 与 算法 14 章 的 大 部 分 内 容 
AL/ 高 级 数据 结构 535, 10.4 55, 112— 1.6 45, 12.3.1135, 13.549, 14.597, 153 45 
AR/ 内 存 系统 组 织 和 架构 第 15 章 
DS/ 集合 、 关 系 和 功能 10.5.1 节 ，10.5.2 5, 9.4 15 
DS/ 证 明 技 巧 341,421, 53215, 9.3.6 5, 12.4.15 
DS/ 基础 计数 24215, 6221, 1224 5, 82247, MKB 
DS/ 图 和 树 第 8 章 和 第 14 章 的 大 部 分 内 容 
DS/ 离散 概率 1.11 节 ，10.2 节 ，10.4.2 节 ，12.3.1 节 
PL/ 面向 对 象 编程 本 书 的 大 部 分 内 容 ， 特 别 是 第 2 章 以 及 7.4 节 、9.5.1 节 、10.1.3 WA 11.2 节 
PL/ 函数 式 编程 1.10 节 
SDF/ 算法 和 设计 2.135, 3:379, RQ 
SDF/ 基本 编程 概念 第 1 章 , 第 4 章 
SDF/ 基本 数据 结构 第 6 章 ,第 7 章 ,， 附 录 A，1.2.1 节 ，5.2 节 ，5.4 节 ，9.1 节 ，10.1 节 
SDF/ 开发 方法 1:775, 2:238 


SE/ 软件 设计 2179, 2.1.3ff 


S 谢 | 


Data Structures and Algorithms in Python 


许多 人 帮助 我 们 完成 了 本 书 。 首 先 要 感谢 的 是 Wiley 这 个 优秀 的 团队 ， 感 谢 我 们 的 编辑 
Beth Golub 从 始 至 终 对 这 个 项 目的 热情 支持 。 从 最 初 阶段 的 提议 到 通过 广泛 同行 评审 的 过 程 
中 ，Elizabeth Mills 和 Katherine Willis 的 努力 是 推动 项 目 持续 前 进 的 关键 动力 。 我 们 非常 感 
谢 专注 于 细节 的 Julie Kennedy， 她 也 是 本 书 的 文字 编辑 。 最 后 ， 非 常 感谢 Joyce Poh 对 于 最 
后 几 个 月 的 生产 过 程 的 管理 。 

真心 感谢 评审 人 员 和 广大 读者 ， 他 们 丰富 的 评论 、 邮 件 和 具有 建设 性 的 批评 对 我 们 
写作 本 书 价值 很 大 。 我 们 要 感谢 以 下 评审 人 员 : Claude Anderson ( Rose Hulman Institute 
of Technology ), Alistair Campbell ( Hamilton College )，Barry Cohen ( New Jersey Institute 
of Technology ), Robert Franks ( Central College ), Andrew Harrington ( Loyola University 
Chicago), Dave Musicant ( Carleton College), Victor Norman ( Calvin College) 。 特 别 感谢 
Claude 非常 负责 地 给 我 们 提供 了 400 条 详细 的 建议 。 

感谢 David Mount ( University of Maryland) 慷慨 地 分 享 了 他 从 C++ 版 本 中 获得 的 经 
验 。 感 谢 Erin Chambers fil David Letscher ( Saint Louis University) 在 多 年 数据 结构 教学 
中 的 默默 奉献 ， 以 及 基于 本 书 早期 Python 代码 版 本 的 评论 。 感 谢 David Zampino (Loyola 
University Chicago 的 学 生 )， 他 在 使 用 本 书 草稿 独立 学 习 后 反馈 了 有 益 的 建议 ， 还 要 感谢 
Andrew Harrington 一 直 督 促 着 David 完成 学 习 。 

很 多 同行 和 助教 为 本 书 先前 的 C++ 和 Java 版 本 提供 了 帮助 ， 那 些 贡献 同样 对 本 书 有 
益 ， 再 次 感谢 他 们 。 

最 后 ， 我 们 要 由 囊 地 感谢 Susan Goldwasser, Isabel Cruz, Karen Goodrich, Giuseppe 
Di Battista, Franco Preparata, loannis Tollis 以 及 我 们 的 父母 ， 他 们 在 本 书 的 不 同 准备 阶段 
给 予 我 们 建议 、 鼓 励 和 支持 。 我 们 还 要 感谢 Calista 和 Maya Goldwasser 关于 许多 插图 的 建 
议 ， 这 些 建议 提升 了 图 片 的 艺术 水 准 。 更 重要 的 是 ， 有 些 人 不 断 提醒 着 我 们 一 一 生活 中 不 止 
写 书 这 一 件 有 意义 的 事 。 没 错 ， 谢 谢 他 们 。 


Michael T. Goodrich 
Roberto Tamassia 
Michael H. Goldwasser 


| 作者 简介 


Data Structures and Algorithms in Python 





Michael Goodrich F 1987 年 从 普 渡 大 学 获得 计算 机 科学 博士 学 位 ， 目 前 是 加 州 大 学 欧 
文 分 校 计算 机 科学 系 校长 讲 席 教 授 。 他 之 前 是 约翰 : 霍 普 金 斯 大 学 的 教授 。 他 是 富 布 莱特 学 
者 ,美国 科学 促进 会 (AAAS)、 计 算 机 协会 (ACM) 以 及 电气 和 电子 工程 师 学 会 (IEEE) 的 
会 士 。 他 还 是 IEEE 计算 机 协会 技术 成 就 奖 、ACM 卓越 服务 奖 以 及 Pond 本 科教 学 优秀 奖 的 
获得 者 。 

Roberto Tamassia F 1988 年 从 伊利 诺 伊 大 学 厄 巴 纳 - 香槟 分 校 获 得 电子 与 计算 机 工程 
博士 学 位 ， 目 前 是 布朗 大 学 计算 机 科学 系 Plastech 教授 ， 并 担任 系 主任 ， 同 时 兼任 布朗 大 学 
几何 计算 中 心 主任 。 他 的 研究 方向 涵盖 信息 安全 、 密 码 学 、 统 计 学 、 算 法 的 设计 和 实现 、 
形 绘制 以 及 计算 几何 学 。 他 是 AAAS、ACM 和 IEEE 的 会 士 。 他 也 是 IEEE 计算 机 协会 技术 
成 就 奖 的 获得 者 。 

Michael Goldwasser 于 1997 年 从 斯 坦 福 大 学 获得 计算 机 科学 博士 学 位 ， 目 前 是 圣 路 易 
斯 大 学 数学 和 计算 机 科学 系 教授 ， 同 时 兼任 计算 机 科学 项 目 主任 。 之 前 ， 他 在 芝加哥 罗 兆 拉 
大 学 计算 机 科学 系 任教 。 他 的 研究 方向 为 算法 的 设计 与 实现 以 及 计算 几何 学 ， 同 时 他 还 活跃 
在 各 种 计算 机 科学 的 教育 社区 。 


这 些 作 者 的 其 他 著作 


e M.T. Goodrich and R. Tamassia, Data Structures and Algorithms in Java, Wiley. 

e M.T. Goodrich, R. Tamassia, and D.M. Mount, Data Structures and Algorithms 
in C++, Wiley. 

e M.T. Goodrich and R. Tamassia, Algorithm Design: Foundations, Analysis, and 
Internet Examples, Wiley. 

e M.T. Goodrich and R. Tamassia, Introduction to Computer Security, Addison- 

Wesley. 

M.H. Goldwasser and D. Letscher, Object-Oriented Programming in Python, 

Prentice Hall. 


ES iL 


RW ky Wi 分 析 n | LA Vx i EVA 
Java 语言 措 进 


¥ 
~ 


4 





数据 结构 与 算法 分 析 : Java 语 言 描述 ( 原 书 第 3 版 ) 
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1.1 Python 概述 


构建 数据 结构 和 算法 需要 我 们 了 解 计 算 机 中 详细 的 指令 。 一 种 很 好 的 方法 是 使 用 高 级 
计算 机 语言 描述 这 个 了 解 的 过 程 ， 如 Python, Python 编程 语言 最 初 是 由 Guido van Rossum 
T 20 世纪 90 年 代 初 开发 的 ， 并 已 在 工业 和 教育 领域 成 为 一 门 十 分 重要 的 语言 。Python if 
言 的 第 二 个 主要 版 本 Python 2 于 2000 年 发 布 ， 而 第 三 个 主要 版 本 Python 3 于 2008 年 发 布 。 
Python 2 和 Python 3 之 间 不 兼容 。 本 书 是 基于 Python 3 编写 的 (更 具体 地 说 ， 基 于 Python 
3.1 或 更 高 版 本 )。Python 语言 的 最 新 版 本 及 其 文档 和 教程 可 在 www.python.org 免费 获取 。 

在 本 章 中 ， 我 们 对 Python 编程 语言 进行 了 概述 ， 并 将 在 下 一 章 继续 讨论 面向 对 象 原则 。 
我 们 假设 这 本 书 的 读者 已 有 一 定 的 编程 经 验 ， 但 不 一 定局 限于 Python。 本 书 不 提供 Python 
语言 的 完整 描述 (有 许多 语言 可 以 参考 用 于 实现 这 一 目的 ), 但 它 的 确 介绍 了 使 用 的 代码 片 
段 里 所 用 语言 的 方方面面 。 


1.1.1 Python 解释 器 


Python 是 一 种 解释 语言 。 命 令 通常 在 被 称 为 Python 解释 器 的 软件 中 执行 。Python 解释 
器 接收 到 一 条 命令 ， 然 后 评估 该 命令 ， 最 后 返回 该 命令 的 结果 。 解 释 器 可 以 交互 使 用 (尤其 
是 在 调试 时 )， 程序 员 通常 提前 定义 一 系列 命令 ， 然 后 把 这 些 命令 保存 为 纯 文 本 文件 ， 这 些 
程序 被 称 为 源 代码 或 脚本 。 对 于 Python， 源 代码 通常 存储 在 一 个 扩展 名 为 .py 的 文件 中 ( 例 
如 demo.py)。 

在 大 多 数 操作 系统 中 ，Python 解释 器 可 以 通过 在 命令 行 中 输入 “ python” 启 动 。 在 
默认 情况 下 ,解释 器 在 交互 模式 下 使 用 新 的 工作 空间 启动 。 执 行 命令 时 ， 从 保存 在 文件 
中 的 一 个 预定 义 脚 本 (例如 demo.py) 中 把 文件 名 作为 调用 解释 器 执行 的 一 个 参数 (例如 
python demo.py)， 或 使 用 一 个 额外 的 -i 标志 来 执行 脚本 ， 然 后 进入 交互 模式 (例如 python 
-i demo.py). 

许多 集成 开发 环境 (Integrated Development Environments, IDE) 为 Python 提供 了 更 加 
丰富 的 软件 开发 平台 ,包括 一 个 拥有 标准 Python 发 行 版 的 IDLE。IDLE 提供 了 一 个 嵌入 式 
的 文本 编辑 器 (可 显示 和 编辑 Python 代码 )， 以 及 一 个 基本 调试 器 (允许 逐步 执行 程序 ， 以 
便 检查 关键 变量 的 值 )。 


1.1.2. Python 程序 预览 


下 面 的 代码 段 1-1 是 一 个 Python 程序 ， 用 户 输入 字母 表示 学 生 的 成 绩 等 级 ， 而 后 程序 
由 输入 数据 计算 学 生平 均 绩 点 ( Grade-Point Average，GPA)。 这 个 例子 所 采用 的 许多 技术 将 
在 本 章 的 其 余部 分 讨论 。 这 时 ， 我 们 注意 到 一 些 高 层次 的 问题 ， 尤 其 是 对 于 那些 初次 接触 
Python 这 门 编程 语言 的 读者 。 


代码 段 1-1 计算 学 生平 均 绩 点 (GPA) 的 Python 代码 


print('Welcome to the GPA calculator.') 

print('Please enter all your letter grades, one per line.') 

print('Enter a blank line to designate the end.') 

# map from letter grade to point value 

points = ('A*':4.0, 'A':4.0, 'A-':3.67, 'B*':3.33, 'B':3.0, 'B-':2.67, 
'C-*:2.33, *C*:2.0, *C*:1.67, !*D**:1.33, '*D':1.0, *F*:0:0) 

num_courses = 0 

total_points = 0 

done = False 

while not done: 


grade = input( ) # read line from user 

if grade == '': # empty line was entered 
done = True 

elif grade not in points: # unrecognized grade entered 
print("Unknown grade '(0)' being ignored".format(grade)) 

else: 


num.courses += 1 
total_points += points[grade] 
if num. courses > 0: # avoid division by zero 
print('Your GPA is (0:.3)'.format(total points / num. courses)) 


Python 的 语法 在 很 大 程度 上 依赖 于 缩 进 。 典 型 的 写法 是 将 一 条 语句 写 在 一 行 ， 当 然 ， 
也 可 以 将 一 条 命令 写 在 多 行 ， 如 利用 反 斜 杠 字 符 〈\)， 或 者 使 用 “ 开 ” 分 隔 符 ， 比 如 定义 值 
映射 (value-map) 的 { 字符 。 

在 Python 划 定 控制 结构 的 主体 时 ， 可 以 用 空白 字符 进行 缩 进 。 具 体 来 说 ， 代 码 块 缩 
进 到 其 指定 的 控制 体 结构 内 ， 骨 套 控制 结构 使 用 空白 缩 进 保持 代码 整洁 。 在 代码 段 1-1 中 ， 
while 循环 主体 之 后 的 8 行 ， 包 括 藤 套 的 条 件 结构 都 使 用 空白 进行 了 缩 进 。 

Python 解释 器 会 忽略 代码 中 的 注释 。 在 Python 中 ， 注 释 是 以 # 字 符 标 识 的 ，# 表示 该 
行 的 剩余 部 分 是 注释 。 


1.2 Python 对 象 


Python 是 一 种 面向 对 象 的 语言 ， 类 则 是 所 有 数据 类 型 的 基础 。 在 本 节 中 ， 我 们 将 介 
绍 Python 对 象 模型 的 重要 方面 ， 并 介绍 Python 的 内 置 类 ， 如 对 于 整数 的 int 类 、 浮 点 数 的 
float 类 以 及 字符 串 的 str 类 。 有 关 面 向 对 象 更 加 深入 的 介绍 将 着 重 在 第 2 章 进 行 。 


1.2.1 标识 符 、 对 象 和 赋值 语句 
在 Python 语言 的 所 有 语句 中 ， 最 重要 的 就 是 赋值 语句 ， 例 如 


temperature = 98.6 


这 条 语句 规定 temperature 作为 标识 符 (也 称 为 名 称 ) 与 等 号 右边 表示 的 对 和 象 相关 联 ， 
在 这 一 示例 中 浮 点 对 象 的 值 为 98.6。 图 1-1 描述 了 这 种 赋值 操作 的 结果 。 





temperature 


图 1-1 标识 符 temperature 引用 了 float 类 的 一 个 值 为 98.6 的 实例 


标识 符 
在 Python 中 ， 标 识 符 是 大 小 写 敏 感 的 ， 所 以 temperature 和 Temperature 是 不 同 的 标识 
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符 。 标 识 符 几 乎 可 以 由 任意 字母 、 数 字 和 下 划 线 字符 〈 或 更 一 般 的 Unicode 字符 ) 组 成 。 主 
要 的 限制 是 标识 符 不 能 以 数字 开头 〈 因 此 9lives 是 非法 的 名 字 )， 并 且 有 33 个 特别 的 保留 字 
不 能 用 作 标 识 符 ， 见 表 1-1。 


表 1-1 Python 中 的 保留 字 ， 这 些 名 字 不 能 用 作 标识 符 


保留 字 
False as continue else from in not return yield 
None assert def except global is or try 
True break del finally if lambda pass while 
and class elif for import nonlocal raise with 


对 于 熟悉 其 他 编程 语言 的 读者 来 说 ，Python 标识 符 的 语义 非常 类 似 于 Java 中 的 引用 变 
量 或 C++ 中 的 指针 变量 。 每 个 标识 符 与 其 所 引用 的 对 象 的 内 存 地 址 隐 式 相关 联 。Python 标 
识 符 可 以 分 配给 一 个 名 为 None 的 特殊 对 象 ， 这 与 Java 或 C++ 中 空 引 用 的 目的 是 相似 的 。 

与 Java 和 C++ Alp], Python 是 一 种 动态 类 型 语言 ， 标 识 符 的 数据 类 型 并 不 需要 事先 声 
明 。 标 识 符 可 以 与 任何 类 型 的 对 象 相关 联 ， 并 且 它 可 以 在 以 后 重新 分 配给 相同 (或 不 同 ) 类 
型 的 另 一 个 对 象 。 虽 然 标 识 符 没 有 被 声明 为 确切 的 类 型 ， 但 它 所 引用 的 对 象 有 一 个 明确 的 类 
型 。 在 第 一 个 示例 中 ， 字 符 98.6 被 认为 是 一 个 浮 点 类 型 ， 因 此 标识 符 temperature 与 具有 该 
值 的 float 类 的 实例 相关 联 。 

程序 员 可 以 通过 向 现 有 对 象 指定 第 二 个 标识 符 建立 一 个 别名 。 继 续 前 面 的 例子 ， 
图 1-2 描绘 了 一 个 赋值 操作 original = temperature 的 结果 。 





temperature original 


图 1-2 标识 符 temperature 和 original 是 同一 个 对 象 的 别名 


一 且 建 立 了 别名 ， 两 个 名 称 都 可 用 来 访问 底层 对 象 。 如 果 该 对 象 支持 影响 其 状态 的 行 
为 ， 当 使 用 一 个 别名 而 通过 另 一 个 别名 更 改 对 象 的 行为 ， 其 结果 是 显而易见 的 《因为 它们 指 
的 是 相同 的 对 象 ) 。 然 而 ， 如 果 对 象 的 一 个 别名 被 赋值 语句 重新 赋予 了 新 的 值 ， 那 么 这 并 不 
影响 已 存在 的 对 象 ， 而 是 给 别名 重新 分 配 了 存储 对 象 。 继 续 之 前 的 示例 ， 我 们 考虑 下 面 的 
语句 : 

temperature = temperature + 5.0 


这 条 语句 的 执行 首先 从 = 操作 符 右 边 的 表达 式 开始 。 表 达 式 temperature + 5.0 是 基于 已 
存在 的 对 象 名 temperature 进行 运算 ， 因此， 结果 的 值 为 103.6， 即 98.6 + 5。 该 结果 被 作为 
新 的 浮 点 实例 存储 ， 如 果 赋 值 语 句 左边 的 名 称 是 temperature， 那 么 (重新 ) 分 配 存储 对 象 。 
随后 的 配置 如 图 1-3 所 示 。 特 别 值得 注意 的 是 ， 后 面 这 条 语句 对 标识 符 original 继续 引用 现 
有 的 浮 点 型 实例 的 值 没 有 任何 影响 。 
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图 1-3 temperature 标识 符 已 分 配 了 新 的 值 ， 而 original 继续 引用 以 前 已 有 的 值 
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1.2.2 ”创建 和 使 用 对 象 


实例 化 

创建 一 个 类 的 新 实例 的 过 程 被 称 为 实例 化 。 一 般 来 说 ， 通 过 调用 类 的 构造 函数 来 实例 化 
对 象 。 例 如 ， 如 果 有 一 个 名 为 Widget 的 类 ， 假 设 这 个 构造 函数 不 需要 任何 参数 ， 我 们 可 以 
使 用 如 w = Widget) 这 样 的 语句 来 创建 这 个 类 的 实例 。 如 果 构 造 函 数 需 要 参数 ,我 们 可 以 使 
用 诸如 Widget(a, b, c) 的 语句 来 构造 一 个 新 的 实例 。 

许多 Python 的 内 置 类 (在 1.2.3 节 中 讨论 ) 都 支持 所 谓 的 字面 形式 指定 新 的 实例 。 例 
lll, i&^8] temperature = 98.6 的 结果 是 创建 float 类 的 新 实例 。 在 该 表达 式 中 ，98.6 这 个 词 是 
字面 形式 。 我 们 将 在 接 下 来 的 部 分 进一步 讨论 Python 的 字面 形式 。 

从 程序 员 的 角度 来 看 ， 另 一 种 间接 创建 类 的 实例 的 方法 是 调用 一 个 函数 来 创建 和 返回 这 
样 一 个 实例 。 例 如 ，Python 有 一 个 内 置 的 函数 名 为 Sorted ( 见 1.5.2 节 )， 它 以 一 系列 可 比较 
的 元 素 作为 参数 ， 并 返回 包含 这 些 已 排序 元 素 的 list 类 的 一 个 新 实例 。 

调用 方法 

Python 支持 传统 函数 调用 ( 见 1.5 节 )， 调 用 函数 的 形式 如 sorted(data)。 在 这 种 情况 下 ， 
data 作为 一 个 参数 传递 给 函数 。Python 的 类 也 可 以 定义 一 个 或 多 个 方法 (也 称 为 成 员 函 数 )， 
类 的 特定 实例 上 的 方法 可 以 使 用 点 操作 符 (“.”) 来 调用 。 例 如 ，Python 的 list 类 有 一 个 名 
为 sort 的 方法 ， 那么 可 以 使 用 data.sort() 这 样 的 形式 调用 。 这 个 特殊 的 方法 对 列表 中 的 内 容 
进行 重 排 ， 从 而 使 其 有 序 。 

点 左 侧 的 表达 式 用 于 确认 被 方法 调用 的 对 象 。 通 常 ， 这 将 是 一 个 标识 符 (例如 data), 
但 我 们 可 以 根据 其 他 操作 的 返回 结果 使 用 点 操作 符 来 调用 一 个 方法 。 例 如 ， 如 果 response 
标识 一 个 字符 串 实例 ， 那 么 可 以 采用 response.lower().startswith('y') 的 形式 调用 函数 ， 其 中 
response.lower() 返回 一 个 新 的 字符 串 实例 ， 在 返回 的 中 间 字 符 串 的 基础 上 调用 startswith(y") 
BE. 

当 使 用 一 个 类 的 方法 时 ， 了 解 它 的 行为 是 很 重要 的 。 一 些 方法 返回 一 个 对 象 的 状态 信 
息 , 但 是 并 不 改变 该 状态 。 这 些 方法 被 称 为 访问 器 。 其 他 方法 ， 如 list 类 的 sort 方法 ， 会 改 
变 一 个 对 象 的 状态 。 这 些 方法 被 称 为 应 用 程序 或 更 新 方法 。 


1.2.83 Python 的 内 置 类 


K 1-2 给 出 了 Python 中 常用 的 内 置 类 。 我 们 要 特别 注意 可 变 的 类 和 不 可 变 的 类 。 如 果 
类 的 每 个 对 象 在 实例 化 时 有 一 个 固定 的 值 ， 并 且 在 随后 的 操作 中 不 会 被 改变 ， 那么 就 是 不 可 
变 的 类 。 例 如 ，float 类 是 不 可 改变 的 。 一 旦 一 个 实例 被 创建 ， 它 的 值 不 能 被 改变 (虽然 一 个 
标识 符 引 用 的 对 象 被 赋予 了 一 个 不 同 的 值 )。 


表 1-2 Python 中 常用 的 内 置 类 


类 不 可 变 
= v 
= v 
ns v 
TT y 
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(5 ) 
x ELE: 
= v 
dict | 关联 映射 (字典 ) 


在 这 一 节 中 ， 我 们 对 这 些 类 进行 了 介绍 ， 讨 论 了 它们 的 目的 ， 并 且 对 创建 类 的 实例 提出 
了 几 种 方法 。 大 多 数 内 置 类 都 存在 字面 形式 (如 98.6 )， 所 有 类 都 支持 传统 构造 函数 形式 创 
建 基 于 一 个 或 多 个 现 有 值 的 实例 。 这 些 类 支持 的 操作 在 1.3 节 中 描述 。 更 多 关于 这 些 类 的 详 
细 信 息 可 以 在 如 下 章节 中 找到 : 列表 和 元 组 (第 5 章 ); 字符 串 (第 5 章 、 第 13 章 和 附录 A); 
集合 和 字典 (第 10 章 )。 

布尔 类 

布尔 (bool) 类 用 于 处 理 逻 辑 (布尔 ) 值 ， 该 类 表示 的 实例 只 有 两 个 值 一 一 True 和 
False, Ski FJi& PAX bool() 返回 False， 但 是 与 其 使 用 这 种 语法 ， 还 不 如 采用 更 直接 的 表现 
形式 。Python 允许 采用 bool(foo) 语法 用 非 布尔 值 类 型 为 值 foo 创造 一 个 布尔 类 型 。 结 果 取 
决 于 参数 的 类 型 。 就 数字 而 言 ， 如 果 为 零 就 为 False， 否 则 就 为 True。 对 于 序列 和 其 他 容器 
类 型 ， 如 字符 串 和 列表 ， 如 果 是 空 为 False， 如 果 非 空 则 为 True。 这 种 方式 的 一 个 重要 应 用 
是 可 以 使 用 非 布尔 类 型 的 值 作为 控制 结构 的 条 件 。 

整 型 类 

AA (int) MFA (float) 类 是 Python 的 主要 数值 类 型 。int 类 被 设计 成 可 以 表示 任 
意 大 小 的 整 型 值 。 不 像 Java 和 C++ 支持 不 同 精度 的 不 同 整数 类 型 (如 int, short, long), 
Python 会 根据 其 整数 的 大 小 自动 选择 内 部 表示 的 方式 。 对 于 整数 ， 典 型 的 形式 包括 0、137 
和 一 23。 在 某 些 情况 下 ， 可 以 很 方便 地 使 用 二 进 制 、 八 进 制 或 十 六 进 制 表示 一 个 整 型 值 。 
可 以 使 用 0 这 个 前 级 和 一 个 字符 来 描述 这 些 进 制 形式 。 这 样 的 例子 分 别 有 0b1011、0o52 
和 0x7F。 

整数 的 构造 函数 int( 返回 一 个 默认 为 0 的 值 。 该 构造 函数 可 用 于 构造 基于 另 一 类 型 的 
值 的 整数 值 。 例 如 ， 如 果 f 是 一 个 浮 点 值 ， 表 达 式 int(f) 得 到 下 的 整数 部 分 。 例 如 ，int(3.14) 
和 int(3.99) 得 到 的 结果 都 是 3， 而 int(- 3.9) 得 到 的 结果 是 - 3。 构造 函数 也 可 以 用 来 分 析 一 
个 字符 串 〈 例 如 用 户 输入 的 一 个 字符 串 )， 该 字符 串 被 假定 为 表示 整 型 值 。 如 果 s 是 一 个 字 
TT. ABZ int(s) 得 到 这 个 字符 串 代 表 的 整数 值 。 例 如 ， 表 达 式 int('137) 产生 整数 值 137。 
如 果 一 个 无 效 的 字符 串 作 了 参数 ， 如 int(hello)， 那 么 就 会 产生 一 个 ValueError ( 见 1.7 节 
讨论 的 Python 异常 )。 默 认 情 况 下 ， 该 字符 串 必 须 使 用 十 进 制 。 如 果 需 要 从 不 同 的 进 制 中 
转换 ， 那 么 需要 把 进 制 表 示 为 第 二 个 可 选 参数 。 例 如 ， 表 达 式 int('7f', 16) 计算 结果 为 整数 
127. 

浮 点 类 

浮 点 (float) 类 是 Python 中 唯一 的 浮 点 类 型 ， 使 用 固定 精度 表示 。 其 精度 更 像 是 Java 
或 C++ 中 的 double 型 ， 而 不 是 Java 或 C++ 中 的 float 型 。 我 们 已 经 讨论 了 一 个 典型 的 
形式 一 一 98.6。 我 们 注意 到 ， 整 数 的 等 价 浮 点 形式 可 以 直接 表达 成 2.0。 从 技术 上 讲 ， 数 
字 末 尾 的 零 是 可 选 的 ， 所 以 有 些 程序 员 可 以 使 用 表达 式 2. 来 表示 数字 2.0 的 浮 点 形式 。 浮 
点 型 数据 的 另 一 种 表达 形式 是 采用 科学 计数 法 。 例 如 ， 表 达 式 6.022e23 代表 数学 上 的 
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6.022 x 10”; 

float() 构造 函数 的 返回 值 是 0.0。 当 给 定 一 个 参数 时 ，float() 构造 函数 尝试 返回 等 价 的 
浮 点 值 。 例 如 ， 调 用 函数 float(2) 返回 浮 点 值 2.0。 如 果 构 造 函 数 的 参数 是 一 个 字符 串 ， 如 
float('3.14')， 它 试图 将 字符 串 解析 为 浮 点 值 ， 那 么 将 会 产生 ValueError 的 异常 。 

序列 类 型 : 列表 、 元 组 和 str 类 

list, tuple 和 str 类 是 Python 中 的 序列 类 型 ,代表 许 多 值 的 集合 ,集合 中 值 的 顺序 很 重 
要 。list 类 是 最 常用 的 ， 表 示 任 意 对 象 的 序列 (类似 于 其 他 语言 中 的 “数组 ”)。tuple 类 是 
list 类 的 一 个 不 可 改变 的 版 本 ， 可 以 看 作 列表 类 一 种 简化 的 内 部 表示 。str 类 表示 文本 字符 不 
可 变 的 序列 。 我 们 注意 到 ，Python 没有 为 字符 设计 一 个 单独 的 类 ， 可 以 将 其 看 作 长 度 为 1 的 
字符 串 。 

列表 类 

列表 Cist) 实例 存储 对 象 序列 。 列 表 是 一 个 参考 结构 ， 因 为 它 在 技术 上 存储 其 元 素 的 引 
用 序列 〈 见 图 1-4 ) 。 列 表 的 元 素 可 以 是 任意 的 对 象 (包括 None 对 象 )。 列 表 是 基于 数组 的 
序列 ， 采用 零 索 引 ， 因 此 一 个 长 度 为 n 的 列表 包含 索引 号 从 0 到 n -1 的 元 素 。 列 表 也 许 是 
Python 中 最 常用 的 容器 类 型 ， 对 数据 结构 和 算法 的 研究 极其 重要 。 它 们 有 很 多 有 用 的 操作 ， 
还 具备 随 着 需求 动态 扩展 和 收缩 存储 容量 的 能 力 。 在 本 章 中 ， 我们 将 讨论 列表 最 基本 的 性 
质 。 第 5 章 将 重点 审视 Python 中 所 有 序列 类 型 的 内 部 工作 。 
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图 1-4 Python 中 整数 列表 的 内 部 表示 ， 实 例 化 为 prime = [2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31] ， 元 素 
的 隐 式 索引 显示 在 每 一 个 条 目的 下 方 


Python 使 用 字符 [ ] 作为 列表 的 分 隔 符 ，[ ] 本 身 表示 一 个 空 列表 。 作 为 男 一 个 示例 ，['red,', 
'green', 'blue'] 是 含有 三 个 字符 串 实例 的 列表 。 列 表 中 的 内 容 并 不 需要 在 字面 上 表达 出 来 。 如 
果 标 识 符 a 和 b 已 经 声明 ， 则 语法 [a, b] 是 合法 的 。 

list() 构造 函数 默认 产生 一 个 空 的 列表 。 然 而 ,构造 函数 可 以 接受 任何 可 迭代 类 型 的 参 
数 。 我 们 将 在 1.8 节 进 一 步 讨 论 迭 代 ， 但 兴 代 器 类 型 的 例子 包括 所 有 的 标准 容器 类 型 (如 字 
FE, IR, THA, RA, FR), AW: list('hello') 产生 一 个 单个 字符 的 列表 ，['h', 'e', T, 
l', '0'"]。 因 为 现 有 列表 本 身 可 迭代 ， 语 法 backup = list(data) 可 用 于 构造 一 个 新 的 列表 实例 ， 
该 列表 实例 引用 与 data 相同 的 内 容 作 为 原始 列表 元 素 。 

元 组 类 

元 组 (tuple) 类 是 序列 的 一 个 不 可 改变 的 版 本 ， 它 的 实例 中 有 一 个 比 列表 更 为 精简 的 内 
部 表示 。Python 使 用 [ ] 符号 表示 列表 ， 而 使 用 圆 括号 表示 元 组 ，( ) 代表 一 个 空 的 元 组 。 这 
里 有 一 个 重要 的 细节 一 一 为 了 表示 只 有 一 个 元 素 的 元 组 ， 该 元 素 之 后 必须 有 一 个 逗号 并 且 在 
圆 括号 之 内 。 例 如 ,，(17,) 是 一 元 元 组 。 之 所 以 这 么 做 ， 是 因为 如 果 没 有 添加 后 面 的 逗号 ， 
那么 表达 式 ( 17 ) 会 被 看 作 一 个 简单 的 带 括号 的 数值 表达 式 。 

str 类 

Python 的 str 类 专门 用 来 有 效 地 代表 一 种 不 变 的 字符 序列 ， 它 基于 Unicode 国际 字符 
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集 。 相 较 于 引用 列表 和 元 组 ， 字 符 串 有 更 为 紧凑 的 内 部 表示 ， 如 图 1-5 所 示 。 





IX 3 4 T 
图 1-5 一 个 Python 字符 串 ， 它 是 字符 的 一 个 索引 序列 


字符 串 可 以 用 单 引 号 括 起 来 ， 如 "hello'， 或 双 引 号 括 起 来 ， 如 "hello"。 这 种 选择 很 方 
便 ， 特 别 是 在 序列 中 使 用 另 一 个 引号 字符 作为 一 个 实际 字符 时 ， 如 "Don't worry"。 男 外 ， 引 
号 的 分 隔 作用 可 以 用 反 斜 杠 来 实现 ， 即 所 谓 的 转 义 字符 ， 如 Don’t worry'。 因 为 反 斜 杠 可 以 
实现 这 个 目的 ， 它 在 字符 串 中 正常 使 用 时 也 应 该 遵循 这 个 用 法 ， 如 'C:NPythonN'， 它 实际 所 
要 表达 的 字符 串 是 C:\Pythonm\。 其 他 常用 的 转 义 字符 有 \ (表示 换行 ) 和 \t (表示 制 表 符 )。 
Unicode 字符 也 包括 在 内 ， 如 '20 \u20AC' 表示 字符 串 20 €, 

Python 也 支持 在 字符 串 的 首尾 使 用 分 割 符 "或 者 """。 这 样 使 用 三 重 引号 字符 的 优点 是 
换行 符 可 以 在 字符 串 中 自然 出 现 (而 不 是 使 用 转 义 字符 \n)。 ot by acter eee ag 
符 串 的 可 读 性 。 例 如 ， 在 代码 段 1-1 的 开始 ， 相 较 于 使 用 单独 的 输出 语句 逐 行 输出 介绍 证 
我 们 可 以 使 用 一 个 输出 语句 ， 如 下 : 


print(""" Welcome to the GPA calculator. 
Please enter all your letter grades, one per line. 
Enter a blank line to designate the end." "") 


set 和 frozenset 类 
Python 的 set 类 代表 一 个 集合 的 数学 概念 ， 即 许多 元 素 的 集合 ， 集 合 中 没有 重复 的 元 
素 ， 而 且 这 些 元 素 没 有 内 在 的 联系 。 与 列表 恰恰 相反 ， 使 用 集合 的 主要 优点 是 它 有 一 个 高 度 
优化 的 方法 来 检查 特定 元 素 是 否 包 含 在 集合 内 。 这 基于 一 个 名 为 散 列表 的 数据 结构 (这 将 是 
第 10 章 的 主题 ) 。 然 而 ， 这 里 有 两 个 由 算法 基础 产生 的 重要 限制 。 一 是 该 集合 不 保存 任何 
有 特定 顺序 的 元 素 集 。 二 是 只 有 不 可 变 类 型 的 实例 才 可 以 被 添加 到 一 个 Python 集合 。 因 此 
如 整数 、 浮 点 数 和 字符 串 类 型 的 对 象 才 有 资格 成 为 集合 中 的 元 素 。 有 可 能 出 现 元 组 的 集合 ， 
但 不 会 有 列表 组 成 的 集合 或 集合 组 成 的 集合 ， 因 为 列表 和 集合 是 可 变 的 。frozenset 类 是 集合 
类 型 的 一 种 不 可 变 的 形式 ， 所 以 由 frozensets 类 型 组 成 的 集合 是 合法 的 。 
Python 使 用 花 括 号 { 和 } 作为 集合 的 分 隔 符 ， 例 如 ，{17} Bk ('red', 'green', 'blue'}o 3X 
i1: ag { } 并 不 代表 一 个 空 的 集合 ; 由 于 历史 的 原因 ，{ } 代表 一 个 空 的 字典 ( 见 下 
)。 除 此 之 外 ， 构 造 函 数 set) 会 产生 一 个 空 集合 。 如 果 给 构造 函数 提供 可 迭代 的 参数 ， 那 
fe tn een 。 例 如 ，set('hello') 产生 集合 {'h', 'e', 'l', '0'} 。 
字典 类 
Python 的 dict 类 代表 一 个 字典 或 者 映射 ， 即 从 一 组 不 同 的 键 中 找到 对 应 的 值 。 例 如 ， 
字典 可 以 把 学 生 的 唯一 的 学 号 信息 和 大 量 的 学 生 记 录 (如 学 生 的 姓名 、 地 址 和 课程 成 绩 ) ut 
行 一 一 映射 。Python 实现 dict 类 与 实现 集合 类 采用 的 方法 几乎 相同 ， 只 不 过 实现 字典 类 时 
会 同时 存储 键 对 应 的 值 。 
字典 的 表达 形式 也 使 用 花 括 号 ， 因 为 在 Python 中 字典 类 型 是 早 于 集合 类 型 出 现 的 ， 字 
面 符号 { } 产生 一 个 空 的 字典 。 一 个 非 空 字典 的 表示 是 用 逗号 分 隔 一 系列 的 键 值 对 。 例 如 ， 
字典 ('ga': 'Irish', 'de': 'German'} 表示 'ga' 到 'Irish' 和 'de' 到 'German' 的 一 一 映射 。 
dict 类 的 构造 函数 接受 一 个 现 有 的 映射 作为 参数 ， 在 这 种 情况 下 ， 它 创造 了 一 个 与 原 有 
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字典 具有 相同 联系 的 新 字典 。 另 外 ,构造 函数 接受 一 系列 键 值 对 作为 参数 ， 如 dict(pairs) 中 
的 pairs = [('ga', "Irish"), ('de', 'German')]. 


1.3 ”表达 式 、 运 算 符 和 优先 级 


在 前 面 的 小 节 中 ,我们 演示 了 如 何 使 用 标识 符 来 标识 现 有 的 对 象 ， 以 及 如 何 使 用 文字 和 
构造 函数 创建 内 部 类 的 实例 。 在 使 用 运算 符 ( 即 各 种 特殊 符号 和 关键 词 ) 的 情况 下 ， 现 有 的 
值 可 以 组 合成 较 大 的 语法 表达 式 。 运 算 符 (或 称 操作 符 ) 的 语义 取决 于 其 操作 数 的 类 型 。 例 
如 ， 当 a 和 b 是 数字 ,语句 a +b 表示 相 加 ; 如 果 a 和 b 是 字符 串 ， 那么 运算 符 就 表示 字符 
串 的 连接 。 本 节 中 ， 我 们 在 内 置 类 型 的 不 同上 下 文 语义 中 描述 Python 的 运算 符 。 

我 们 将 在 稍 后 讨论 复合 表达 式 ， 例 如 a +b * c， 表 达 式 的 结果 取决 于 两 个 或 更 多 的 运算 符 
运算 的 结果 。 复 合 表 达 式 的 运算 顺序 可 以 影响 表达 式 的 整体 结果 。 为 此 ，Python 定义 运算 符 的 
优先 级 顺序 ， 但 允许 程序 员 通 过 使 用 明确 的 括号 对 表达 式 中 运算 符 的 优先 级 进行 调整 。 

逻辑 运算 符 

Python 支持 以 下 关键 字 作为 运算 符 ， 其 结果 为 布尔 值 : 

not #4 
and iP 85 
or iX 

and 和 or 运算 符 是 短路 保护 的 ， 也 就 是 说 ， 如 果 其 结果 可 以 根据 第 一 个 操作 数 的 值 来 
确定 ， 那 么 它们 不 会 对 第 二 个 操作 数 进行 运算 。 这 个 功能 在 构造 布尔 表达 式 时 很 有 用 。 我 们 
首先 测试 某 些 条 件 成 立 (如 一 个 引用 不 是 None)， 然 后 测试 男 一 个 条 件 ， 否 则 可 能 产生 一 个 
之 前 的 测试 没有 成 功 的 错误 条 件 。 


相等 运算 符 

Python 支持 以 下 运算 符 去 测试 两 个 概念 的 相等 性 : 
is 同一 实体 
isnot 不 同 的 实体 
== 等 价 
!= 不 等 价 


当 标 识 符 a 和 b 是 同一 个 对 象 的 别名 时 ， 表 达 式 ads b 的 结果 为 真 。 表 达 式 a == b 测试 
一 个 更 一 般 的 等 价 概念 。 如 果 标 识 符 a 和 b 指向 同一 个 对 象 ， 那 么 表达 式 a == b 为 真 。 如 果 
标识 符 指向 不 同 的 对 象 ， 但 这 些 对 象 的 值 被 认为 是 等 价 的 ， 那么 a == b 的 结果 也 为 真 。 精 确 
的 等 价 概念 取决 于 数据 类 型 。 例 如 ， 对 于 两 个 字符 串 ， 如 果 它 们 的 每 个 字符 都 对 应 相同 ， 那 
么 它们 可 以 看 作 是 等 价 的 。 两 个 集合 包含 相同 的 元 素 ， 而 不 考虑 其 顺序 ， 那 么 这 两 个 集合 可 
以 看 作 是 等 价 的 。 在 大 多 数 编程 情况 下 ，== 和 != 运算 符 适 用 于 检验 表达 式 是 否 相 等 。is 和 
is not 在 有 必要 检验 真正 的 混 倒 时 是 适用 的 。 


比较 运算 符 

数据 类 型 可 以 通过 以 下 运算 符 定义 一 个 自然 次 序 : 
< 本 于 
<= ”小 于 等 于 
> KF 


>= AT EF 
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这 些 运算 符 对 于 数值 类 型 、 定 义 好 的 字典 类 型 和 有 大 小 写 之 分 的 字符 串 有 可 预期 的 结 
果 。 如 果 操 作 数 的 类 型 不 匹配 ， 例 如 5 < 'hello'"， 那么 就 会 产生 异常 。 
算术 运算 符 
Python 支持 以 下 算术 运算 符 : 
+ 加 
- JW 
* # 
/ ”真正 的 除 
| XX 
% 模 运算 符 
加 法 、 减 法 和 乘法 的 用 法 是 很 简单 的 ， 需 要 注意 的 是 ， 如 果 两 个 操作 数 都 是 整 型 ， 那 
么 其 结果 也 是 整 型 ; 如 果 有 一 个 是 浮 点 型 ， 或 两 个 操作 数 都 是 浮 点 型 ， 那 么 其 结果 也 是 浮 
点 型 。 
Python 对 于 除法 有 更 多 的 考虑 。 我 们 首先 考虑 两 个 操作 数 都 是 整 型 的 情况 ， 例 如 ，27 


除 以 4。 在 数学 中 ，27+4 = 6 65. E Python 中 ，/ 运 算 符 表 示 真 正 的 除 ， 运 算 返 回 一 


个 浮 点 型 的 计算 结果 。 因 此 ，27 /4 得 到 一 个 浮 点 型 的 值 6.75。Python 支持 // Al % 运算 符 
进行 整数 运算 ， 表达 式 27 // 4 运算 的 值 是 整 型 的 6 (数学 概念 中 的 商 )， 表 达 式 27%4 运算 的 
值 是 整 型 的 3， 整 数 除法 的 余数 。 我 们 注意 到 C、C++ 和 Java 等 语言 不 支持 /运算 符 。 另 
外 ， 当 两 个 操作 数 都 是 整 型 时 ，/ 运算 符 返 回 不 大 于 商 的 最 大 整数 ; 当 至 少 有 一 个 操作 数 是 
浮 点 类 型 时 ， 其 结果 是 真正 除法 的 结果 。 

在 操作 数 有 一 个 或 两 个 是 负数 的 情况 下 ，Python 谨慎 地 扩展 了 // 和 % 的 语义 。 由 于 符 


号 的 缘故 ， 我 们 假设 变量 n 和 m 分 别 代表 商 式 二 的 被 除数 和 除数 ， Pp an Gms 


Python 保证 q * m * r SET n. 我们 已 经 看 到 操作 数 为 正 数 这 一 情况 的 实例 ， 如 6*4+3= 
27。 当 除数 m 为 正 数 时 ，Python 进一步 保证 0 < r < m。 因 此 ， 我 们 发 现 - 27 // 4 运算 的 值 
为 -7 并 且 27 % 4 运算 的 值 为 1， 满足 算式 (一 7) *4+1= 一 27。 当 除数 为 负数 时 ，Python 
保证 m « r < 0。 作 为 示例 ，27 // -4 运算 的 值 为 -7 并 且 27 96 -4 运算 的 值 为 ~- 1， 满足 算 
式 27=(-7)*(-4)+(-1)。 
/和 % 运算 符 的 使 用 甚至 扩展 到 浮 点 型 操作 数 ， 表 达 式 g = n 1/ m 的 值 是 不 大 于 商 的 最 
大 整数 ， 表 达 式 + = n % m 表示 r+ 是 余数 ， 确 保 g * m +r 等 于 n。 例 如 ，8.2 // 3.14 运算 的 结 
果 为 2.0，8.2 % 3.14 运算 的 结果 为 1.92 ， 满 足 算式 2.0 * 3.14 + 1.92 = 8.2。 
位 运算 符 
Python 为 整数 提供 了 以 下 位 运算 符 : 
一 ” 取 反 (前 缀 一 元 运算 符 ) 
让” 按 位 与 
| RAR 
” RARR 
< 左 移 位 ， 用 零 填 充 
>> 右 移 位 ， 按 符号 位 填充 
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序列 运算 符 

Python 每 个 内 置 类 型 的 序列 (str, tuple 和 list) 都 支持 以 下 操作 符 语法 : 
s[j] 索引 下 标 为 了 的 元 素 
s[start:stop] 切片 操作 得 到 索引 为 [start, stop) 的 序列 


s[startstop:step] 切片 操作 ， 新 的 序列 包含 索引 为 start， 
start + step, start + 2 * step, =, 直到 序 


列 结束 
st 序列 的 连接 
k*s 序列 s 连接 即 s+s+s 十 … (大 次 ) 
val in s 检查 元 素 val 在 序列 s 中 
val not in s 检查 元 素 val 不 在 序列 s 中 


Python 使 用 序列 的 零 索 引 ， 因 此 一 个 长 度 为 n 的 序列 的 元 素 的 索引 是 从 0 到 n 一 1。 
Python 还 支持 使 用 负 索 引 ， 表 示 离 序列 尾部 的 距离 ; 索引 - 1 表示 序列 的 最 后 一 个 元 素 ， 索 
F|- 2 表示 序列 的 倒数 第 二 个 元 素 ， 以 此 类 推 。Python 使 用 切片 标记 法 来 描述 一 个 序列 的 子 
序列 。 切 片 被 描述 为 一 种 半 开 放 的 状态 ， 即 开始 索引 的 元 素 包含 在 内 ， 结 束 索 引 的 元 素 排 除 
在 外 。 例 如 ， 语 句 data[3:8] 产生 一 个 子 序列 ， 子 序列 包含 5 个 索引 值 : 3, 4, 5, 6, 7。 一 个 可 
选 的 “step” 值 ， 有 可 能 是 负数 ， 可 以 当 作 切片 的 第 三 个 参数 。 如 果 在 切片 表达 式 中 省 略 了 
一 个 起 始 索引 或 结束 索引 ， 则 假设 起 始 或 结束 对 应 的 是 原始 序列 的 头 或 尾 。 

因为 列表 是 可 变 的 ， 语 法 sj] = val 可 以 替换 给 定 索引 的 元 素 。 列 表 还 支持 语法 del s [j], 
即 从 列表 中 删除 指定 的 元 素 。 切 片 标记 法 也 可 以 用 来 取代 或 删除 子 列表 。 

表达 式 val in s 可 以 用 在 任何 序列 中 检验 其 中 是 否 有 元 素 与 val 的 值 相等 。 对 字符 串 来 
说 ， 这 个 语法 可 以 用 来 匹配 其 中 的 一 个 字符 或 一 个 较 大 的 子 串 ， 如 ‘amp’ in 'example'。 

所 有 序列 规定 的 比较 操作 都 是 基于 字典 顺序 ， 即 一 个 元 素 接 一 个 元 素 地 比较 ， 直 至 找到 
第 一 个 不 同 的 元 素 。 例 如 ，[5, 6, 9] < [5, 7]， 因 为 第 一 个 序列 中 索引 为 1 的 元 素 小 。 因 此 ， 
下 面 的 操作 由 序列 类 型 支持 : 

s==t ”相等 (每 一 个 元 素 对 应 相等 ) 
s!=t 不 相等 

s«t 字典 序 地 小 于 

s<=t 字典 序 地 小 于 或 等 于 

S>t 字典 序 地 大 于 

s»-t 字典 序 地 大 于 或 等 于 


集合 和 字典 的 运算 符 
set 和 frozenset 支持 以 下 操作 : 
key in s 检查 key 是 s 的 成 员 、 
key not in s 检查 key 不 是 s 的 成 员 
sl == s2 sl & ffr s2 
sl !=s2 sl 不 等 价 s2 
s] <= §2 sl 是 s2 的 子 集 
sl <s2 sl 是 s2 的 真子 集 
sl >= S2 sl 是 s2 的 超 集 


sl > S2 sl 是 s2 的 真 超 集 (sl 不 等 于 s2 ) 
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sl | s2 sl 5 s2 的 并 集 
sl & s2 sl 与 s2 的 交集 
sl — s2 sl 与 s2 的 差 集 
sl ^s2 对 称 差 分 (该 集合 中 的 元 素 在 sl 与 s2 的 其 中 之 一 ) 


需要 注意 的 是 ， 集 合并 不 保证 它们 内 部 元 素 以 特定 的 顺序 排列 ， 所 以 比较 运算 符 (如 <) 
不 是 以 字典 顺序 进行 比较 的 ; 相反 ， 它 们 是 基于 子 集 的 数学 概念 的 。 所 以 ， 比 较 运 算 符 定义 
一 个 部 分 的 顺序 ， 但 不 是 一 个 总 体 的 顺序 ， 因 为 不 相交 的 集合 彼此 不 是 “小 于 ”“ 等 于 ”或 
“大 于 ”的 关系 。 集 合 通 过 命名 方法 (例如 添加 、 删 除 ) 支持 许多 基本 的 行为 ， 我 们 将 在 第 
10 章 更 充分 地 探讨 其 功能 。 

字典 像 集合 一 样 ， 它 们 的 元 素 没 有 一 个 明确 定义 的 顺序 。 此 外 ， 对 于 字典 ， 子 集 的 概念 
并 没有 太 大 的 意义 ， 所 以 dict 类 并 不 支持 形 如 < 的 运算 符 。 字 典 支 持 等 价 的 概念 ， 如 果 两 个 
字典 包含 相同 的 键 - 值 对 集合 ， 那 么 dl == d2。 字 典 最 广泛 使 用 的 操作 是 访问 一 个 值 ， 这 个 
值 与 特定 的 索引 语法 为 d[k] 的 键 k 相关 联 。 支 持 的 操作 如 下 : 


d[key] 给 定 键 key 所 关联 的 值 

d[key] == value 设置 (或 重 置 ) 与 给 定 的 键 相 关联 的 值 
del d[key] 从 字典 中 删除 键 及 其 关联 的 值 
keyind 检查 key 是 d 的 成 员 

key not in d 检查 key 不 是 d 的 成 员 

dl == d2 dl 等 价 于 d2 

dl != d2 dl 不 等 价 于 d2 


字典 通过 命名 方法 支持 许多 有 用 的 行为 ， 我 们 将 在 第 10 章 更 充分 地 探讨 其 功能 。 

扩展 赋值 运算 符 

Python 支持 对 大 多 数 二 元 运算 符 进行 扩展 赋值 运算 ,例如 ， 人 允许 形 如 count += 5 的 语 
法 表达 式 。 默 认 情 况 下 ， 这 是 更 繁琐 的 表达 式 count = count + 5 的 一 种 简约 表述 。 对 于 不 可 
变 类 型 ， 如 数字 或 字符 串 ， 不 应 该 认为 该 语法 改变 现 有 对 象 的 值 ， 而 是 它 将 对 新 构造 的 值 重 
新 分 配 标 识 符 〈 见 图 1-3 )。 然 而 ， 对 于 一 种 类 型 ， 它 可 通过 重新 定义 语法 规则 去 改变 对 象 的 
行为 ， 如 对 列表 类 进行 += 操作 。 


alpha — [1, 2, 3] 

beta — alpha # an alias for alpha 

beta 十 = [4, 5] # extends the original list with two more elements 

beta — beta 十 [6, 7] # reassigns beta to a new list [1, 2, 3, 4, 5, 6, 7] 

print(alpha) # will be [1, 2, 3, 4, 5] 
这 个 例子 展现 了 语句 beta += foo 5j beta = beta + foo 在 列表 语义 方面 的 微妙 差异 。 
复合 表达 式 和 运算 符 优先 级 


编程 语言 对 复合 表达 式 的 执行 顺序 必须 有 明确 的 规则 ， 如 计算 5 -2 * 3。Python 中 运算 
符 正式 的 优先 级 顺序 在 表 1-3 中 给 出 。 在 同一 个 级 别 中 ， 优 先 级 高 的 运算 符 将 会 比 优先 级 低 
的 运算 符 先 执行 ， 除 非 表达 式 中 有 括号 。 因 此 ， 我 们 看 到 Python 中 乘法 的 优先 级 高 于 加 法 ， 
因此 表达 式 5 + 2* 3 是 作为 5+ (2 * 3 ) 计算 的 ， 值 为 11， 但 是 加 了 括号 后 的 表达 式 C5 + 
2) * 3 计算 的 值 为 21。 同 一 个 级 别 中 的 运算 符 是 从 左 到 右 计 算 的 ， 因 此 5 - 2 + 3 的 值 为 6。 
此 规则 的 例外 情况 是 一 元 运算 符 和 求 宕 运算 是 从 右 至 左 运 算 的 。 


X 1-3 Python 运算 符 的 优先 级 ， 同 类 别 中 从 最 高 级 别 到 最 低级 别 排序 。 我 们 使 用 expr 来 表示 文 
字 、 标 识 符 ， 或 表达 式 的 运算 结果 。 所 有 没有 明确 提 及 的 expr 的 运算 符 都 是 二 元 运算 符 ， 
其 语法 形式 如 expr1 operator expr2 





运算 符 优先 级 
| AE | 符 号 
! expr.member 
2 函数 /方法 调用 expr(…) 
容器 下 标 / 切片 expr[…] 
4 + expr, -expr, ~ expr 
5 * 1 Ml, % 
6 hs - 
8 & 
9 : 
10 | 
11 WAR is, isnot, =, !=, <, <=, >, >=, in, notin 
包含 
12 not expr 
14 or 
15 vall if cond else val2 
16 zy des em ed 


Python 支持 多 级 赋值 ， 如 x =y= 0， 将 最 右边 的 值 赋值 给 指定 的 多 个 标识 符 。Python 
还 支持 链接 比较 运算 符 。 例 如 ， 表 达 式 1 <= x+y <= 10 等 价 于 复合 表达 式 (1 <=x + y) and (x + 
y<= 10)， 这 样 可 以 不 用 将 中 间 值 x+ y 计算 两 次 。 


1.4 控制 流程 

在 本 节 中 ， 我 们 将 回顾 Python 中 最 基本 的 控制 结构 : 条 件 语句 和 循环 语句 。 在 Python 
中 ， 控 制 结构 中 常见 的 是 使 用 语法 来 定义 代码 块 。 冒 号 字符 用 于 标识 代码 块 的 开始 ， 代 码 块 
作为 控制 结构 的 结构 体 。 如 果 结 构 体 可 以 被 表述 为 一 个 可 执行 语句 ， 则 它 可 以 与 冒号 置 于 同 
一 行 上 ， 且 在 冒号 的 右边 。 然 而 ， 结 构 体 通常 从 冒号 的 下 一 行 起 整齐 缩 进 。Python 依赖 于 缩 
进 级 别 或 嵌 套 结构 来 指定 代码 块 。 同 样 的 原则 适用 于 指定 一 个 函数 体 ( 见 1.5 节 ) 和 一 个 类 
的 主体 ( 见 2.3 节 )。 


1.4.1 条 件 语句 
条 件 结构 (也 称 为 if 语句 ) 提供 了 一 种 方法 ， 用 以 执行 基于 一 个 或 多 个 布尔 表达 式 的 运 
行 结果 而 选择 的 代码 块 。 在 Python 中 ， 条 件 语句 一 般 的 形式 如 下 : 


if first condition: 
first body 

elif second condition: 
second. body 

elif third condition: 
third body 

else: 
fourth body 


= 
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每 个 条 件 都 是 布尔 表达 式 ， 并 且 每 个 主体 包含 一 个 或 多 个 在 满足 条 件 时 才 执 行 的 命令 。 
如 果 满 足 第 一 个 条 件 ， 那 么 将 执行 第 一 个 结构 体 ， 而 其 他 条 件 或 结构 体 不 会 执行 。 如 果 不 
满足 第 一 个 条 件 ， 那么 这 个 流程 以 相似 的 方式 评估 第 二 个 条 件 ， 并 将 继续 下 去 。 整 体 构 造 
的 执行 将 决定 必 有 一 个 结构 体会 被 执行 。 这 里 可 能 有 任意 数量 的 elif 语 句 〈 包 括 零 个 )， 最 
后 一 条 else 语句 是 可 选 的 。 就 像 前 面 提 到 的 ， 非 布尔 类 型 可 以 被 评估 为 具有 直观 含义 的 布 
尔 值 。 例 如 ， 如 果 response 是 由 用 户 输入 的 一 个 字符 串 ， 我 们 会 以 这 是 一 个 非 空 字符 串 为 条 
件 ， 写 为 


if response: 


可 以 看 作 下 列 等 价 表 达 式 的 简写 : 
if response !— ' ': 


作为 一 个 简单 的 例子 ， 一 个 机 器 人 控制 器 可 能 有 以 下 逻辑 : 


if door. is. closed: 
open. door( ) 
advance( ) 


注意 : 最 后 的 命令 advance) 没有 缩 进 ， 因 此 不 是 条 件 结构 体 的 一 部 分 。 它 将 会 被 无 条 
件 地 执行 (尽管 它 在 打开 一 个 关 着 的 门 之 后 )。 

我 们 可 以 在 一 个 控制 结构 中 嵌 套 男 一 个 控制 结构 ， 基 于 缩 进 可 以 明确 不 同 结构 体 的 范 
围 。 重 新 审视 机 器 人 的 例子 ， 这 里 有 一 个 更 复杂 的 控制 ， 是 在 紧 闭 的 门 上 增加 开锁 的 条 件 。 


if door. is. closed: 
if door. is. locked: 
unlock. door( ) 
open. door( ) 
advance( ) 


这 个 例子 表示 的 逻辑 可 以 描绘 为 一 种 传统 的 流程 图 ， 如 图 1-6 所 示 。 





图 1-6 描述 逻辑 嵌 套 条 件 语 句 的 流程 图 


1.4.2 ”循环 语句 


Python 提供 了 两 种 不 同 的 循环 结构 。while 循环 允许 以 布尔 条 件 的 重复 测试 为 基础 的 一 
般 重复 。for 循环 对 定义 序列 的 值 提 供 了 适当 的 迭代 (如 字符 串 中 的 字符 、 列 表 中 的 元 素 或 
一 定 范围 内 的 数字 )。 

while 循环 

Python 中 的 while 循环 的 语法 如 下 : 


while condition: 
body 


就 一 个 证 语句 来 说 ，condition 可 以 是 任意 布尔 表达 式 ， 结 构 体 可 以 是 任意 代码 块 ( 包 
MRE). PUT while 循环 时 首先 测试 布尔 条 件 。 如 果 条 件 的 结果 为 True， 执 行 循 
环 的 主体 。 每 次 执行 结构 体 后 ， 重 新 测试 循环 条 件 ， 如 果 测 试 条 件 的 结果 为 True， 那 么 开 
始 执 行 结构 体 的 男 一 轮 迭 代 。 如 果 测 试 条 件 的 结果 为 False (假设 曾经 出 现 过 )， 那 么 循环 退 
出 ， 并 且 控 制 流 在 循环 的 主体 之 外 继续 。 

作为 示例 ， 这 里 给 出 一 个 循环 ， 通 过 字符 序列 的 索引 ， 找 到 一 个 输入 值 为 'X' 的 值 或 直 
接 到 达 序 列 的 尾部 。 

md < len(data) and data[j] (= 'X': 

j+=1 

我 们 将 在 1.5.2 节 讨 论 len 函数 ， 它 返回 一 个 序列 《如 列表 或 字符 串 ) 的 长 度 。 这 个 循环 
的 正确 性 依赖 于 and 运算 符 的 短路 效应 。 在 访问 元 素 data[j] 之 前 ， 首 先 测试 j < len(data) 以 
确保 j 是 一 个 有 效 的 索引 。 如 果 我 们 以 相反 的 顺序 写成 复合 条 件 ， 当 'X' 不 存在 时 ，data[j] 
的 结果 将 最 终 会 抛 出 IndexError 异常 〈 见 1.7 节 讨 论 的 异常 情况 )。 

如 上 所 述 ， 当 这 个 循环 结束 时 ， 如 果 'X' 存在， 变量 j 的 值 是 出 现在 最 左边 的 'X' 的 索 
引 ， 和 否则 就 是 序列 的 长 度 (这 将 会 被 作为 一 个 预示 着 搜索 失败 的 无 效 索 引 )。 值 得 注意 的 是 
这 段 代 码 本 身 的 正确 性 ， 甚 至 在 特殊 情况 下 ， 如 当 列表 为 空 时 ， 条 件 j < len(data) 一 开始 即 
执行 失败 ， 而 循环 体 永远 不 会 被 执行 。 

for 循环 

在 迭代 一 系列 的 元 素 时 ，Python 的 for 循环 是 一 种 比 while 循环 更 为 便利 的 选择 。for 循 
环 的 语法 可 以 用 在 任何 类 型 的 迭代 结构 中 ， 如 列表 、 元 组 、str、 人 集合、 字典 或 文件 (我 们 将 
在 1.8 节 正 式 讨论 迭 代 器 )。 其 一 般 语法 如 下 : 


for element in iterable: 
body # body may refer to 'element! as an identifier 


对 于 熟悉 Java 的 读者 ，Python 的 for 循环 的 语法 与 Java 1.5 中 介绍 的 “for each” 循 环 
的 风格 很 相似 。 

作为 for 循环 一 个 很 有 启发 性 的 例子 ， 我们 考虑 的 是 计算 列表 中 元 素数 值 的 总 和 (当然 ， 
Python 中 有 一 个 内 置 的 函数 sum， 也 可 以 达到 这 一 目的 )。 我 们 在 for 循环 中 执行 如 下 计算 ， 
假设 data 代表 列表 : 


total — 0 
for val in data: 
total += val # note use of the loop variable, val 


标识 符 val 从 for 循环 指定 的 元 素 开 始 遍历 ， 对 于 data 序列 中 的 每 一 个 元 素 ， 循 环 体 都 
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会 执行 一 次 。 值 得 注意 的 是 ，val 被 视 为 一 个 标准 标识 符 。 如 果 原 始 data 中 的 元 素 是 可 变 的 ， 
可 以 使 用 val 标识 符 调用 它 的 方法 。 但 是 给 标识 符 val 重新 赋 一 个 新 的 值 并 不 影响 原始 data, 
也 不 影响 下 一 次 的 迭代 循环 。 

第 二 个 经 典 的 例子 ， 我 们 考虑 在 一 个 列表 的 元 素 中 寻找 最 大 值 (Python 的 内 置 函数 
max 已 经 提供 了 这 种 功能 )。 我 们 可 以 假设 data 列表 至 少 有 一 个 元 素 ， 那 么 可 以 实现 这 个 
任务 : 


biggest — data[0] # as we assume nonempty list 
for val in data: 
if val > biggest: 
biggest — val 


虽然 我 们 可 以 用 while 循环 来 完成 上 述 任务 ,但 for 循环 的 优点 是 简洁 ， 即 不 需要 管理 
列表 的 明确 索引 及 构造 布尔 循环 条 件 。 此 外 ， 我 们 可 以 在 while 循环 不 适用 的 情况 下 使 用 
for 循环 ， 例 如 遍历 一 个 集合 set， 但 它 不 支持 任何 直接 形式 的 索引 。 

基于 索引 的 for 循环 

标准 的 for 循环 用 于 遍历 一 个 列表 的 元 素 时 是 很 简洁 的 ， 但 这 种 形式 的 一 个 限制 是 我 们 
不 知道 元 素 在 这 个 序列 的 哪 一 个 位 置 。 在 某 些 应 用 程序 中 ， 我 们 需要 知道 序列 中 元 素 的 索 
引 。 例 如 ， 假设 我 们 想 知道 列表 中 最 大 元 素 所 在 的 位 置 。 

在 这 种 情况 下 ， 我 们 宁愿 遍历 列表 中 所 有 可 能 的 索引 ， 而 不 是 直接 在 列表 的 元 素 上 循 
环 。 为 此 ，Python 提供 了 一 个 名 为 range 的 内 置 类 ， 它 可 以 生成 整数 序列 。( 我 们 将 在 1.8 
节 讨 论 生成 器 。) 在 最 简单 的 形式 中 ,语法 range(n) 生成 具有 nn 个 值 的 序列 ， 下 标 从 0 到 nn 一 
1。 很 明显 ， 这 一 系列 有 效 的 索引 构成 的 序列 的 长 度 为 xn。 因此， 标准 的 Python 语言 对 数据 
序列 的 一 系列 索引 应 用 for 循环 时 ， 使 用 以 下 语法 : 


for j in range(len(data)): 


在 这 种 情况 下 ， 标 识 符 j 并 不 是 data 中 的 元 素 ， 它 是 一 个 整数 。 而 表达 式 data[j] 可 以 
用 来 检索 序列 中 相应 的 元 素 。 例 如 ， 我 们 可 以 找到 列表 中 最 大 元 素 的 索引 ， 如 下 : 


big index = 0 
for j in range(len(data)): 
if data[j] > data[big index]: 
big index — j 

break 和 continue 语句 

Python 支持 break 语句 ， 当 在 循环 体内 执行 break 语句 时 ，while 或 for 循环 就 会 立即 终 
止 。 更 正式 地 说 ， 如 果 在 艇 套 的 控制 结构 中 使 用 break 语句 ， 它 会 导致 内 层 循环 立刻 终止 。 
一 个 典型 的 例子 如 下 面 的 代码 所 示 ， 它 是 确定 一 个 目标 值 是 否 出 现在 数据 集中 : 


found — False 
for item in data: 
if item == target: 
found — True 
break 


Python 也 支持 continue i^], continue 语句 会 使 得 循环 体 的 当前 和 迭代 停止 ， 但 循环 过 程 
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我 们 建议 慎 用 break 和 continue 语句 。 然 而 ， 在 有 些 情况 下 ， 可 以 有 效 地 使 用 这 些 命 
令 ， 以 免 引 入 过 于 复杂 的 逻辑 条 件 。 


1.5 ”函数 


在 这 一 节 中 ,我 们 探讨 Python 中 函数 的 创建 和 使 用 。 正 如 我 们 在 1.2.2 节 讨 论 的 ， 应 明 
确 函 数 和 方法 之 间 的 区 别 。 我 们 用 一 般 的 术语 一 一 函数 来 描述 一 个 传统 的 、 无 状态 的 函数 ， 
该 函数 被 调用 而 不 需要 了 解 特定 类 的 内 容 或 该 类 的 实例 ， 例 如 sorted(data)。 我 们 使 用 更 具 
体 的 术语 一 一 方法 来 描述 一 个 成 员 函 数 ， 在 调用 特定 对 象 时 使 用 面向 对 象 的 消息 传递 语法 ， 
如 data.sort()。 在 这 一 节 中 ,我们 只 考虑 纯 函 数 ; 在 第 2 章 中 ， 我 们 使 用 更 广泛 的 面向 对 象 
原则 来 探讨 方法 。 

我 们 从 一 个 例子 开始 说 明 在 Python 中 定义 函数 的 语法 。 在 任何 形式 的 可 迭代 数据 集中 ， 
下 面 的 函数 计算 给 定 目 标 值 出 现 的 次 数 。 


def count(data, target): 
n-0 
for item in data: 
if item == target: # found a match 
n+=1 
return n 


以 关键 字 def 开始 的 第 一 行 作为 函数 的 签名 。 这 个 标志 建立 了 一 个 新 的 标识 符 作 为 函 
数 的 名 称 (在 这 个 示例 中 是 count)， 并 且 设 立 了 期 望 的 参数 个 数 ， 以 及 标识 这 些 参数 的 名 称 
(在 这 个 示例 中 是 data 和 target)。 与 Java 和 C++ 不 同 ，Python 是 一 种 动态 类 型 语言 ， 因 此 
Python 签名 不 指定 这 些 参 数 的 类 型 ， 也 不 指定 返回 值 的 类 型 (如 果 有 的 话 )。 这 些 参 数 的 使 
用 在 函数 的 说 明文 档 中 描述 ( 见 2.2.3 节 )， 并 且 在 函数 体 中 执行 ， 但 是 对 于 函数 的 错误 使 用 
只 有 在 运行 时 才 被 检测 到 。 

函数 定义 的 其 余部 分 称 为 函数 的 主体 。 和 Python 中 控制 结构 的 情况 一 样 ， 函 数 体 通常 
以 缩 进 的 代码 块 的 形式 表示 。 每 次 调用 函数 时 ，Python 会 创建 一 个 专用 的 活动 记录 用 来 存储 
与 当前 调用 相关 的 信息 。 这 个 活动 记录 包括 了 命名 空间 ( 见 1.10 节 )。 命 名 空间 用 以 管理 当 
前 调用 中 局 部 作用 域内 的 所 有 标识 符 。 命 名 空间 包含 该 函数 的 参数 以 及 在 函数 体内 定义 的 其 
他 本 地 标识 符 。 函 数 调 用 者 局 部 作用 域内 的 标识 符 与 调用 者 作用 域内 的 其 他 相同 名 称 的 标识 
符 没有 关系 (虽然 在 不 同 的 作用 域 的 标识 符 可 能 是 同一 对 象 的 别名 )。 在 第 一 个 例子 中 ， 标 
YAT n 的 范围 是 局 部 函数 调用 。 作 为 标识 符 项 ， 它 被 作为 循环 变量 使 用 。 

return 语句 

return 语句 一 般 用 在 也 数 体 内 ， 用 来 表示 该 函数 应 立即 停止 执行 ， 并 将 所 得 到 的 值 返 
回 给 调用 者 。 如 果 return 语句 在 执行 之 后 没有 明确 的 返回 值 ， 则 None 值 会 自动 返回 给 调用 
者 。 同 样 ， 如 果 控 制 流 在 没有 执行 retum 语句 的 情况 下 到 达 过 函数 体 的 末端 ， 那么 None fH 
会 被 返回 。 通 常 ，return 语句 会 是 函数 体 的 最 后 一 条 命令 ， 如 前 面 所 示 count 函数 例子 中 。 
然而 ， 如 果 命 令 执行 受 条 件 逻 辑 控 制 ， 那 么 在 同一 函数 中 可 以 有 多 个 return 语句 。 作 为 一 个 
深入 的 例子 ,下 面 考虑 这 样 一 个 函数 一 一 测试 序列 中 是 否 有 一 个 这 样 的 值 。 


def contains(data, target): 
for item in data: 
if item == target: # found a match 
return True 
return False 


如 果 满 足 循环 体内 的 条 件 ， 那 么 return True 语句 就 会 执行 ， 然 后 函数 就 会 立即 结束 。 
Ture 表示 目标 值 已 经 被 找到 。 相 反 ， 如 果 for 循环 到 达 结 尾 仍 然 没 有 找到 匹配 值 ， 那 么 最 后 
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的 return False 语句 将 被 执行 。 


1.5.1 信息 传递 


要 成 为 一 个 优秀 的 程序 员 ， 你 必须 对 编程 语言 如 何 从 函数 中 传递 信息 的 机 制 有 一 个 清晰 
的 理解 。 在 函数 签名 的 上 下 文中 ， 用 来 描述 预期 参数 的 标识 符 被 称 为 形式 和 参数， 调用 者 调用 
函数 时 发 送 的 对 象 是 实际 参数 。 在 Python 中 ， 参 数 传递 遵循 标准 赋值 语句 的 语法 。 当 调用 
一 个 函数 时 ， 在 函数 的 局 部 范围 内 ， 每 个 标识 符 将 作为 一 个 形式 参数 被 赋值 给 该 函数 的 调用 
方 提供 的 相应 的 实际 参数 。 

例如 ， 考 虑 以 下 来 自前 面 count 函数 的 调用 : 


prizes = count(grades, 'A') 


在 执行 函数 体 之 前 ， 实 际 参数 grades 和 'A' 已 经 被 隐 式 分 配给 了 形式 参数 data 和 target. 
代码 如 下 : 


data = grades 
target = 'A' 


这 些 赋值 语句 将 标识 符 data 作为 grades 的 别名 ， 并 将 target 作为 字符 串 'A' 的 别名 ， 如 
图 1-7 所 示 。 


grades data target 





i 
图 1-7 Python 中 对 于 函数 调用 count(grades, 'A') 参数 传递 的 描述 。 标 识 符 data 和 target 是 count 函数 
定义 的 局 部 范围 内 的 形式 参数 


函数 的 返回 值 传 递 给 调用 者 这 一 实现 类 似 于 赋值 。 因 此 ， 我们 的 示例 调用 prizes = 
count(grades, 'A')， 在 调用 者 作用 域内 的 标识 符 prizes 赋值 给 了 对 象 ， 此 对 象 就 是 函数 体 中 
返回 语句 确定 的 n。 

对 于 从 一 个 函数 中 传递 信息 来 说 ，Python 机 制 的 优点 是 不 用 复制 对 象 。 即 使 在 一 个 参 
数 或 返回 值 是 一 个 复杂 对 象 的 情况 下 ， 这 也 确保 了 函数 的 调用 是 有 效 的 。 

可 变 参 数 

当 一 个 参数 是 可 变 对 象 时 ，Python 的 参数 传递 模式 有 其 他 作用 。 因 为 形 参 是 实际 参数 
的 一 个 别名 ， 函 数 体 与 对 象 的 交互 或 许 会 改变 它 的 状态 。 青 一 次 考虑 对 于 示例 count 函数 的 
调用 ， 如 果 函 数 体 执行 data.append('F') 这 条 命令 ， 新 的 条 目 被 添加 到 函数 中 data 列表 的 末 
尾 ， 这 改变 了 被 调用 者 所 知 的 相同 的 列表 ， 比 如 grades。 另 外 ， 我 们 注意 到 在 函数 体内 给 形 
式 参数 重新 赋予 新 值 ， 形 如 设置 data = []， 并 不 改变 实际 参数 一 一 这 种 重新 赋值 的 方式 只 是 
改变 了 别名 。 

我 们 假设 的 count 方法 的 例子 是 给 列表 追加 新 的 元 素 ， 这 是 缺乏 常识 的 。 没 有 理由 期 待 
这 样 的 行为 ， 对 参数 有 这 样 一 个 意 想 不 到 的 影响 将 是 相当 糟糕 的 设计 。 然 而 ， 在 许多 合法 的 
情况 下 ， 一 个 函数 可 以 被 设计 (和 清楚 地 记录 ) 用 以 修改 参数 的 状态 。 作 为 一 个 具体 的 例子 ， 
我 们 提出 实现 一 个 名 为 scale 的 方法 ， 主 要 的 目的 是 给 数据 集中 的 所 有 数 都 乘 上 一 个 给 定 的 
因子 。 


def scale(data, factor): 
for j in range(len(data)): 
data[j] += factor 


默认 参数 值 

Python 提供 了 支持 多 个 可 能 的 调用 函数 签名 的 方法 。 这 样 的 函数 被 视 为 多 态 的 (在 希腊 
语 是 “许多 形式 ”的 意思 )。 最 值得 注意 的 是 ， 函 数 可 以 为 参数 声明 一 个 或 多 个 默认 值 ， 从 
而 允许 调用 方 用 不 同 个 数 的 实际 参数 调用 函数 。 例 如 ， 如 果 一 个 函数 用 下 列 签名 来 声明 


def foo(a, b=15, c=27): 


这 里 有 三 个 参数 ， 其 中 最 后 两 个 提供 默认 值 。 调 用 方 可 以 提供 三 个 实际 参数 ， 如 foo(4, 
12, 8)。 在 这 种 情况 下 ， 默 认 值 是 没有 用 的 。 换 言 之 ， 如 果 调 用 方 只 能 提供 一 个 参数 foo(4)， 
该 函数 将 以 参数 值 a = 4、b = 15、c = 27 执行 。 如 果 调 用 方 提 供 两 个 参数 ， 那 么 这 两 个 参数 
被 假定 赋 给 形式 参数 的 前 两 位 ， 形 式 参数 的 第 三 位 还 是 取 默 认 值 。 因 此 ，foo(8, 20) 将 以 参 
数值 a= 8、b = 20、c = 27 执行 。 然 而 ， 形 如 bar(a, b = 15, c) 的 签名 ， 其 中 b 具有 默认 值 而 
JE SE] c 没有 默认 值 ， 使 用 这 样 的 签名 定义 函数 是 不 合法 的 。 如 果 一 个 默认 的 参数 具有 参数 
值 ， 那 么 它 后 面 的 参数 也 必须 具有 默认 值 。 

作为 一 个 使 用 默认 参数 的 更 加 深入 的 例子 ， 我 们 重新 计算 一 个 学 生平 均 绩 点 (GPA) 的 
任务 ( 见 代 码 段 1-1 )。 不 是 假设 与 控制 台 进 行 直接 的 输入 和 输出 ， 我 们 希望 设计 一 个 函数 ， 
这 个 函数 用 于 计算 并 返回 一 个 GPA。 最 初 的 实现 是 使 用 一 个 固定 的 映射 ， 每 个 字母 等 级 (如 
B -) 对 应 相应 的 值 (如 2.67 )。 虽 然 这 在 系统 中 很 常见 ， 但 它 并 不 是 所 有 学 校 使 用 的 系统 
(例如 ， 有 些 学 校 可 能 会 使 用 A+ 代表 分 值 高 于 40). Pt, 我们 设计 了 一 个 compute gpa 
函数 ， 如 代码 段 1-2 所 示 ， 它 允许 调用 者 指定 自 定 义 的 等 级 到 值 的 映射 ， 同 时 提供 标准 的 系 
统 默认 值 。 


代码 段 1-2 一 个 计算 学 生平 均 绩 点 的 函数 ， 这 个 函数 的 特点 是 可 以 定制 可 选 的 参数 


def compute_gpa(grades, points—('A*':4.0, 'A':4.0, 'A-':3.67, 'B*':3.33, 
'B':3.0, 'B-*:2.67,'C*':2.33, 'C':2:0, 
16! :1.67, *D**:1,33, "DELO, *F*:0.0)): 
num.courses = 0 
total_points = 0 
for g in grades: 
if g in points: # a recognizable grade 
num.courses += 1 
total. points += points[g] 
return total points / num. courses 


作为 有 趣 的 多 态 函 数 的 男 外 一 个 示例 ， 我 们 考虑 Python 对 range 的 支持 。( 从 技术 上 讲 ， 
这 是 一 个 range 类 的 构造 函数 ,但 是 为 了 讨论 这 个 问题 ,我 们 可 以 把 它 当 作 一 个 纯 函 数 来 对 
fr.) Python 对 于 range 支持 三 种 调用 语法 : 单 参 数 的 形式 ， 如 range(n)， 产 生 一 个 从 0 到 n 
但 不 包含 n 的 整数 序列 ; 两 个 参数 的 形式 ， 如 range(start, stop)， 生 成 从 start 开始 到 stop 结 
RAAT stop 的 整数 序列 ; 三 个 参数 的 形式 ， 如 range(start, stop, step)， 生 成 一 个 类 似 于 
range(start, stop) 的 序列 ， 但 序列 增 量 的 大 小 是 step 而 不 是 1。 

这 种 形式 的 组 合 似乎 违反 了 默认 参数 的 规则 。 特 别 是 当 只 有 单 参数 时 ， 如 range(n), € 
作为 一 个 stop 值 (这 是 第 二 个 参数 )。 在 这 种 情况 下 start 的 有 效 值 是 0。 然 而， 这 种 效果 
可 以 用 一 些 手法 来 实现 ， 代 码 如 下 : 
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def range(start, stop=None, step=1): 
if stop is None: 
stop — start 
start — 0 


从 技术 角度 来 看 ， 当 range(n) 被 调用 时 ， 实 际 参 数 n 将 被 赋值 给 形式 参数 start。 在 函数 
体内 ， 如 果 只 接收 到 一 个 参数 ，start 和 stop 的 值 将 会 重新 被 赋值 以 提供 所 需 的 语义 。 

关键 字 参 数 

把 调用 者 的 实际 参数 匹配 给 由 函数 签名 声明 的 形式 参数 ， 传 统 机 制 是 基于 位 置 参 数 的 概 
念 。 例 如 ， 签 名 foo(a = 10, b = 20, c = 30)， 调 用 者 按照 给 定 的 顺序 把 实际 参数 匹配 给 形式 
参数 。foo(5) 的 调用 表示 a = 5， 而 b 和 < 的 值 是 指定 的 默认 值 。 

Python 支持 男 一 种 将 关键 字 参 数 传递 给 函数 的 机 制 。 关 键 字 参数 是 通过 显 式 地 按照 名 
称 将 实际 参数 赋值 给 形式 参数 来 指定 的 。 例 如 ,使 用 上 述 定义 的 foo 函数 ， 调 用 foo(c = 5) 
将 以 参数 a= 10、b = 20、c=5 的 形式 执行 。 

一 个 函数 的 作者 可 以 获取 某 些 只 能 通过 关键 字 参 数 语 法 传递 的 参数 。 我 们 在 自己 的 函数 
定义 中 从 来 没有 这 样 的 限制 ,但 在 Python 标准 库 中 会 看 到 唯一 关键 字 参 数 的 几 个 重要 的 用 
法 。 例 如 ， 内 置 的 max 函数 接收 一 个 名 为 key 的 关键 字 参 数 ， 可 以 用 来 改变 使 用 的 “最 大 ” 
的 概念 。 

默认 情况 下 ，max 运算 符 是 根据 < 操作 符 对 元 素 的 自然 顺序 进行 操作 的 。 但 是 最 大 的 
数 可 以 通过 比较 元 素 的 其 他 方面 得 出 。 这 可 以 通过 提供 一 个 辅助 函数 实现 一 一 为 了 比较 将 自 
然 元 素 转 换 为 其 他 值 来 完成 。 例 如 ， 如 果 有 兴趣 寻找 数值 最 大 的 一 个 数 ( 即 考虑 - 35 要 大 
于 20 )， 我 们 可 以 调用 语法 max(a, b, key = abs)。 在 这 种 情况 下 ， 内 置 的 abs 函数 本 身 就 是 
传递 与 关键 字 人 参数 key 相关 联 的 值 (在 Python 中 函数 是 第 一 类 对 象 ， 参 见 1.10 节 )。 在 这 种 
方式 下 调用 max 函数 ， 它 会 比较 abs(a) 和 abs(b)， 而 不 是 a 和 b。 在 max 函数 的 情景 中 ， 关 
键 字 语法 作为 位 置 参 数 的 蔡 代 的 目的 是 很 重要 的 。 这 个 函数 在 参数 的 个 数 方面 是 多 态 的 ， 允 
许 形 如 max(a, b, c, d) 的 调用 ， 因 此 ， 它 不 可 能 指定 一 个 关键 函数 作为 传统 的 位 置 元 素 。 在 
Python 中 ， 排 序 郴 数 为 了 表示 非 标准 的 序列 也 支持 类 似 的 key 参数 ( 当 讨 论 排序 算法 时 ， 我 
们 在 9.4 节 和 12.6 节 对 此 做 进一步 探讨 ) 。 


1.5.2 Python 的 内 置 函 数 


X 1-4 列 出 了 Python 中 自动 可 用 的 常见 函数 ， 包 括 前 面 讨 论 的 abs、max fll range. ^5 
选择 参数 的 名 称 时 ， 我 们 使 用 标识 符 x、y、z 表示 任意 数值 类 型 k 代表 整数 ，a、b 和 ec 表 
示 任 意 可 比较 类 型 。 我 们 使 用 标识 符 iterable 代表 任何 可 迭代 类 型 的 一 个 实例 (如 str list, 
tuple 、set、dict) 。 我 们 将 在 1.8 节 讨 论 迭 代 器 和 可 迭代 数据 类 型 。 序 列 代表 可 索引 类 的 一 个 
更 罕 的 范畴 ， 包 含 str、 列 表 和 元 组 ,但 不 包含 集合 和 字典 。 表 1-4 根据 功能 将 函数 分 为 如 
PUL: 
e 输入 /输出 : print, input 和 open PAZX, APS 1.6 节 的 内 容 。 
e 字符 编码 : ord 和 chr 将 字符 和 其 对 应 的 整 型 编码 关联 起 来 。 如 ord('A') 的 值 是 65， 
chr(65) 的 值 是 'A'。 

e 数学 : abs, divmod, pow, round 和 sum 提供 了 通用 的 数学 功能 。1.11 节 介 绍 了 一 
个 额外 的 数学 模块 。 

e HEF: max 和 min 适用 于 支持 比较 概念 的 任何 数据 类 型 或 这 些 值 的 任何 集合 。 同 样 ， 


从 已 存在 的 集合 中 抽取 元 素 ， 可 以 使 用 sorted 生成 排序 的 列表 。 

e 集合 /和 迭代: range 产生 一 个 新 的 数字 数列 ; len 得 到 任何 现 有 集合 的 长 度 ; 函数 reversed, 
all, any 和 map 操作 任意 的 迭代 类 型 ，iter 和 next 通过 集合 中 的 元 素 对 迭代 提供 一 个 
总 体 框 架 ， 参 见 1.8 节 相 关内 容 。 


表 1-4 常见 的 内 置 函数 


调用 语法 dá $ 
abs(x) 返回 数字 的 绝对 值 
all(iterable) 对 于 每 一 个 元 素 e， 如 果 bool(e) 为 True， 那 么 返回 True 
any(iterable) 至 少 存在 一 个 元 素 e， 使 bool(e) 为 True， 那 么 返回 True 
chr(integer) 返回 给 定 Unicode 编码 的 字符 
divmod(x, y) 如 果 x 和 y 都 是 整数 ， 返 回 元 组 (x//y, x%y) 
hash(obj) 对 于 对 象 obj 返回 一 个 整数 的 散 列 值 ( 见 第 10 章 ) 
id(obj) 返回 作为 对 象 身 份 标 识 的 唯一 整数 
input(prompt) 返回 标准 输入 的 字符 串 ，prompt 是 可 选 的 
isinstance(obj, cls) 确定 对 象 是 类 的 一 个 实例 (或 子 类 ) 
iter(iterable) 为 参数 返回 一 个 新 的 迭代 对 象 ( 见 1.8 节 ) 
len(iterable) 返回 给 定 迭 代 对 象 的 元 素 个 数 
map(f iterl, iter2, …) 返回 迭代 器 产生 的 函数 调用 fel, e2, …) 的 结果 ， 其 中 元 素 el € iterl, e2 € iter2, … 
max(iterable) 返回 给 定 迭 代 对 象 中 最 大 的 元 素 
max(a, b, c, =+) 返回 给 定 参 数 中 最 大 的 元 素 
min(iterable) 返回 给 定 迭 代 对 象 中 最 小 的 元 素 
min(a, b, c, ++) 返回 给 定 参数 中 最 小 的 元 素 
next(iterator) 通过 迭代 咒 返 回 下 一 个 元 素 ( 见 1.8 节 ) 
open(filename, mode) 通过 给 定 的 名 字 和 存 取 模式 打开 文件 
ord(char) 返回 给 定 字符 的 Unicode 编码 值 
pow(x, y) 返回 x” 的 值 ( 当 x RI y 为 整 型 时 值 为 整 型 ); 等 价 于 x**y 
pow(x, y, z) 返回 整 型 值 (xy mod z) 
print(objl, obj2, …) 打印 参数 ， 参 数 之 间 以 空格 分 隔 ， 打 印 完毕 后 换行 
range(stop) 构造 关于 值 0, 1,…, stop - 1 的 迭代 
range(start, stop) 构造 关于 值 start, start + 1, …, stop — 1 的 迭代 
range(start, stop, step) 构造 关于 值 start, start + step, start + 2*step, … 的 迭代 
reversed(sequence) 3 [913 EFE EE 
round(x) 返回 最 接近 的 int 型 值 (省 去 小 数 点 后 的 数 向 偶数 值 靠近 ) 
round(x, k) 返回 最 接近 10“ 的 近似 值 (返回 类 型 匹配 x) 
sorted(iterable) 返回 一 个 列表 ， 它 包含 的 元 素 是 以 顺序 排序 的 iterable 中 的 元 素 
sum(iterable) 返回 iterable 中 元 素 的 和 (必须 是 数字 ) 
type(obj) 返回 实例 obj 所 属 的 类 


1.6 简单 的 输入 和 输出 


在 本 节 中 ， 我 们 会 谈 到 Python 语言 中 输入 和 输出 的 基本 知识 ， 并 描述 通过 用 户 控制 台 
来 实现 标准 输入 和 输出 ， 以 及 对 读 写 文本 文件 的 支持 。 


Python AT] 21 





1.6.1 控制 台 输 入 和 输出 
print 函数 
print 函数 ( Python if A PIA eRe) 用 来 生成 标准 输出 到 控制 台 。 在 其 最 简单 的 形 
式 中 ， 它 可 以 打印 任意 序列 的 参数 。 多 个 参数 之 间 以 空格 作为 分 隔 ， 未 尾 有 一个 换行 符 。 例 
如 ， 命 令 print(maroon', 5) 就 是 输出 字符 串 'maroon 5\n'。 注 意 : ere 
实例 ， 一 个 非 字 符 串 参数 x 也 将 会 以 str(x) 的 形式 显示 。 要 是 没有 任何 参数 ， 命 令 print) 输 
出 的 就 是 单个 的 换行 符 。 
print 函数 可 以 使 用 下 列 关 键 字 参数 进行 自 定义 (参照 1.5 节 对 关键 字 参 数 的 讨论 ): 
e 默认 情况 下 ，print 函数 在 输出 时 会 在 每 对 参数 间 插 人 空格 作为 分 了 喇 ， 其 实 可 以 通 
过 关键 字 参 数 sep 自 定 义 想 要 的 分 隔 符 以 分 隔 字符 串 。 例 如 ， 用 冒号 分 隔 可 以 使 用 
print(a, b, c, sep = ':0)。 分 隔 字符 串 不 需要 一 定 用 单个 字符 ， 它 可 以 是 一 个 长 的 字符 
串 ， 当 然 ， 它 也 可 以 是 一 个 空 串 ， 如 sep =''， 这 样 可 使 得 这 些 参数 直接 相连 。 
e 默认 情况 下 ， 在 最 后 一 个 参数 后 会 输出 换行 符 。 使 用 关键 字 参 数 end 可 以 指定 一 个 
可 选择 的 结尾 字符 串 。 指 定 空 字符 串 end = ''， 这 样 结束 后 不 输出 任何 字符 。 
e 默认 情况 下 ，print 函数 会 直接 将 输出 发 送 到 标准 控制 台 。 然 而 ， 通 过 使 用 关键 字 参 
数 file 指示 一 个 输出 文件 流 (参见 1.6.2 节 )， 也 可 以 直接 输出 到 一 A SERE a 
input 函数 
input 是 一 个 内 置 函数 ， 它 的 主要 功能 是 接收 来 自明 户 控 制 台 的 信息 。 如 果 给 出 一 
选 参数 ， 那 么 这 个 函数 会 显示 提示 信息 ， 然 后 等 待 用 户 输入 任意 字符 ， (aie FEE, : 
个 函数 的 返回 值 是 按 下 返回 键 之 前 用 户 所 输入 的 字符 串 ( 即 换行 符 不 存在 于 返回 值 中 )。 
当 读 到 来 自用 户 的 数值 时 ， 程 序 员 必 须 使 用 input 函数 获取 字符 串 ， 然 后 使 用 int 或 float 
语法 来 构建 用 字符 串 表 示 的 这 些 数值 ， 即 如 果 response = input()， 用 户 输 入 字符 串 '2013'， 那 
么 int(response) 可 以 得 到 整 型 值 2013。 将 这 些 操作 和 语法 结合 起 来 是 很 常见 的 ， 例 如 ， 


year = int(input('In what year were you born? ')) 


假定 用 户 会 输入 一 个 合适 的 响应 〈 在 1.7 节 中 ,我们 会 讨论 这 种 情况 下 的 错误 处 理 )。 

因为 input 函数 会 返回 一 个 字符 串 作为 结果 ， 如 附录 A 中 所 述 ， 该 函数 的 使 用 可 以 与 
string 类 的 现 有 功能 相 结合 。 例 如 ， 如 果 用 户 在 同一 行 上 输入 多 个 信息 ， 则 通常 会 对 结果 调 
用 split 方法 ， 即 


reply = input('Enter x and y, separated by spaces: ') 

pieces = reply.split( ) # returns a list of strings, as separated by spaces 
x — float(pieces[0]) 

y — float(pieces[1]) 


示例 程序 
下 面 有 一 个 简单 但 完整 的 程序 ， 展 示 了 input 和 print 函数 的 使 用 规范 。 格 式 化 最 终 输 
出 结果 的 工具 会 在 附录 A 中 讨论 。 


age = int(input('Enter your age in years: ')) 

max_heart_rate = 206.9 — (0.67 * age) # as per Med Sci Sports Exerc. 
target = 0.65 * max. heart. rate 

print('Your target fat-burning heart rate is', target) 


1.6.2 文件 
在 Python 中 访问 文件 要 先 调用 一 个 内 置 函数 open， 它 返回 一 个 与 底层 文件 交互 的 对 


象 。 例 如 ， 命 令 fp = open('sample.txt") 用 于 打开 名 为 sample.txt 的 文件 ， 返 回 一 个 对 该 文本 
文件 允许 只 读 操作 的 文件 对 象 。 

open 函数 的 第 二 个 可 选 参 数 是 确认 对 文件 的 访问 权限 ,默认 权限 r' 是 只 读 。 其 他 常见 
权限 如 'w' 是 对 文件 进行 写 操作 (会 覆盖 当前 文件 之 前 的 内 容 )，'a' 是 对 当前 文件 的 尾部 追加 
内 容 。 尽 管 我 们 对 文本 文件 的 使 用 比较 关注 ， 但 使 用 'rb' 或 者 'wb' 也 可 以 对 二 进 制 文件 进行 
访问 。 

在 处 理 一 个 文件 时 ， 文 件 对 象 使 用 距离 文件 开始 处 的 偏 移 量 (以 字 节 为 单位 ) 维护 文件 
中 的 当前 位 置 。 当 以 只 读 权限 T RAB AR 'w' 打开 文件 时 ， 初始 位 置 是 0 ;如果 是 以 追加 
BUB 'a' 打开 ,初始 位 置 是 在 文件 的 末尾 。fp.close() 会 关闭 与 文件 对 象 fp 相关 的 文件 ， 确 保 
写 人 的 内 容 已 被 保存 。 读 写 文件 的 常用 方法 见 表 1-5。 


表 1-5 文件 对 象 fp 与 文件 交互 的 常用 方法 


调用 方法 Ho x 
fp.read() 将 可 读 文 件 剩 下 的 所 有 内 容 作 为 一 个 字符 串 返 回 
fp.read(k) 将 可 读 文 件 中 接 下 来 的 k 个 字 节 作 为 一 个 字符 串 返 回 
fp.readline() 从 文件 中 读 取 一 行内 容 ， 并 以 此 作为 一 个 字符 串 返 回 
fp.readlines() 将 文件 中 的 每 行内 容 作为 一 个 字符 串 存 人 列表 中 ， 并 返回 该 列表 
for line in 印 遍历 文件 的 每 一 行 
fp.seek(k) 将 当前 位 置 定位 到 文件 的 第 k 个 字 节 
fp.tell() 返回 当前 位 置 偏离 开始 处 的 字 节 数 


fp.write(string) 在 可 写 文件 的 当前 位 置 将 string MAAS A 

在 可 写 文件 的 当前 位 置 写 人 给 定 序 列 的 每 个 字符 串 。 除 了 那些 嵌入 到 字符 串 中 的 换行 符 ， 这 
个 命令 不 插入 换行 符 
print(…, file 7 fp)| 将 print 函数 的 输出 重 定 向 给 文件 (输出 文件 内 容 ) 


fp.writelines(seq) 


读 文件 

通过 文件 对 象 读 取 文 件 最 基本 的 命令 是 read 方法 。 当 使 用 fp.read(k) 命令 时 ， 将 返回 从 
文件 当前 位 置 开始 后 继 的 k 个 字 节 。 如 果 没 有 参数 ， 即 形 如 fp.read0， 则 返回 文件 当前 位 置 
后 的 全 部 内 容 。 为 了 方便 ,文件 也 可 以 一 次 读 取 一 行 ， 使 用 readline 方法 或 者 readlines 方法 
将 剩余 的 每 一 行 以 列表 方式 返回 。 文 件 也 支持 for-loop 操作 ， 即 逐 行 遍历 (例如 for line in fp) 

写 文 件 

当 文 件 对 象 是 可 写 的 ， 例 如 ， 以 写 权 限 'w' 或 追加 权限 'a' 创建 一 个 文件 时 ， 就 可 以 
使 用 write 方法 或 writelines 方法 。 例 如 ， 如 果 现 在 定义 印 = open('results.txt', 'w')， 执 行 
fp.write('Hello World.\n') 就 是 将 给 定 字符 串 在 文件 中 单独 写 一 行 。 注 意 : 在 写 文件 时 ， 它 不 
会 自动 在 尾部 追加 换行 符 。 如 果 需 要 换行 符 ， 则 必须 将 其 写 和 人 字符 串 中 。 回 忆 一 下 前 面 提 到 
的 print 方法 ， 可 以 使 用 关键 字 参 数 将 内 容 输出 到 文件 中 。 


1.7 异常 处 理 


异常 是 程序 执行 期 间 发 生 的 突 发 性 事件 。 逻 辑 错 误 或 未 预料 到 的 情况 都 有 可 能 造成 异 
常 。 在 Python 中 ,异常 (也 被 称 为 错误 ) 也 是 执行 代码 时 遇 到 突 发 状况 所 引发 (或 抛 出 ) 的 
对 象 。 当 遇 到 突 发 状况 如 内 存 溢出 时 ，Python 解释 器 也 可 以 引发 异常 。 如 果 在 上 下 文中 有 
处 理 异 常 的 代码 ,那么 异常 可 能 会 被 捕获 。 如 果 没 有 捕获 ， 异 常 可 能 会 导致 解释 器 停止 运行 
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程序 ， 并 且 向 控制 台 发 送 合适 的 信息 。 在 这 一 节 ， 我 们 会 学 习 Python 中 最 常见 的 错误 类 型 、 
捕获 异常 和 处 理 异 常 的 机 制 以 及 用 户 定 义 的 代码 块 内 引发 错误 的 语法 。 

常见 错误 类 型 

Python 含有 大 量 的 异常 类 ， 它 们 定义 了 各 种 不 同类 型 的 异常 。 表 1-6 给 出 了 一 些 常见 
的 异常 类 。Exception 类 是 所 有 蜡 常 类 的 基 类 。 各 子 类 的 实例 都 编码 成 已 发 生 问题 的 细节 。 
本 章 所 介绍 的 异常 案例 就 会 引发 一 些 异 常 。 例 如 ， 在 表达 式 中 使 用 未 定义 的 标识 符 会 造成 
NameError 异常 ， 还 有 “. ”符号 的 错误 使 用 ， 如 foo.bar()， 如 果 对 象 foo 没有 bar Min, Ill 
会 引发 AttributeError 异常 。 


表 1-6 Python 中 的 常见 异常 类 
Hi 


异常 类 名 述 
Exception 所 有 异常 类 的 基 类 
AttributeError 如 果 对 象 obj 没有 foo Mi, 会 由 语法 obj.foo 引发 
EOFError 一 个 “end of file” 到 达 控 制 台 或 者 文件 输入 引发 错误 
IOError 输入 /输出 操作 (如 打开 文件 ) 失败 引发 错误 
IndexError 索引 超出 序列 范围 引发 错误 
KeyError 请 求 一 个 不 存在 的 集合 或 字典 关键 字 引 发 错误 
KeyboardInterrupt JH PE ctrl - C 中 断 程 序 引发 错误 
NameError 使 用 不 存在 的 标识 符 引 发 错误 


Stoplteration 
TypeError 
ValueError 


ZeroDivisionError 


下 一 次 遍历 的 元 素 不 存在 时 引发 错误 ， 参 照 1.8 节 
发 送 给 函数 的 参数 类 型 不 正确 引发 错误 

函数 参数 值 非法 时 引发 错误 〈 例 如 ，sqrt(-5)) 
除数 为 0 引发 错误 


向 函数 发 送 一 个 错误 的 数字 、 类 型 或 参数 值 是 引发 异常 的 另 一 个 常见 起 因 。 例 如 ， 调 用 
abs(‘hello') 就 会 引发 TypeError 异常 ， 因 为 参数 不 是 数字 型 的 ; 调用 abs(3, 5) 也 会 引发 TypeError 
异常 ， 因 为 只 允许 一 个 参数 。 如 果 传 递 参数 的 类 型 和 数目 都 是 正确 的 ， 但 对 于 函数 来 说 参数 值 
是 非法 的 ， 那 就 会 引发 ValueError 异常 。 例 如 ，int 型 构造 函数 可 接收 字符 串 ， 如 int('1377， 但 
如 果 字 符 串 代表 的 不 是 整数 ， 如 int(3.14) 或 intohello)， 就 会 引发 ValueError 异常 。 

当 data[k] 中 的 k 对 于 所 给 序列 是 一 个 非法 的 索引 时 ，Python 的 序列 类 型 (如 列表 、 元 
组 和 str 类 ) 会 引发 IndexError 异常 。 当 试图 访问 一 个 不 存在 的 元 素 时 ， 集 合 和 字典 会 引发 
KeyError 异常 。 


1.7.1 抛 出 异常 


当 执行 到 带 有 蜡 常 类 的 实例 (其 中 以 指定 问题 作为 参数 ) 的 raise 语句 时 ， 就 会 抛 出 异 
常 。 例 如 ， 计 算 平方 根 的 函数 传递 了 一 个 负数 作为 参数 ， 就 会 引发 有 如 下 命令 的 异常 : 


raise ValueError('x cannot be negative') 


随 着 这 个 错误 信息 作为 构造 函数 的 一 个 参数 ， 该 语法 会 生成 一 个 新 创建 的 ValueError 类 
实例 。 如 果 这 个 异常 在 函数 体内 没有 被 捕获 ， 函 数 的 执行 会 立刻 停止 ， 并 且 这 个 异常 可 能 会 
被 传播 到 调用 的 上 下 文 (甚至 更 远 )。 

检查 一 个 函数 参数 的 有 效 性 ， 首 先 要 验证 参数 类 型 是 否 正确 ， 然 后 再 验证 参数 的 值 的 正 


确 性 。 例 如 ， 在 Python 的 math 库 中 sqrt 函数 有 错误 检测 ， 代 码 如 下 : 


def sqrt(x): 
if not isinstance(x, (int, float)): 
raise TypeError(*x must be numeric!) 
elif x < 0: 
raise ValueError('x cannot be negative') 
# do the real work here... 


检测 一 个 对 象 的 类 型 可 以 在 运行 时 使 用 内 置 函 数 isinstance 来 实现 。 在 最 简单 的 形式 
中 ， 如 果 对 象 obj 是 cls 类 的 一 个 实例 或 者 是 该 类 型 的 任何 子 类 ，isinstance(obj, cls) 会 返回 
True。 在 上 述 例子 中 ， 更 常见 的 形式 是 使 用 以 第 二 个 参数 表示 的 正当 类 型 的 元 组 。 在 确认 该 
参数 是 数字 后 ， 函 数 会 产生 一 个 数字 是 非 负 的 异常 ， 否 则 会 抛 出 一 个 ValueError 异常 。 

要 对 也 数 执行 多 少 次 错误 检测 是 一 个 有 争议 的 问题 。 检 查 参 数 的 类 型 和 数值 需要 额外 的 
执行 时 间 ， 如 果 走 向 极端 ， 似 乎 与 Python HARA. PG, AER sum’) 用 于 计算 一 
系列 数字 的 总 和 ， 其 错误 检测 的 实现 如 下 : 


def sum(values): 

if not isinstance(values, collections. Iterable): 

raise TypeError('parameter must be an iterable type') 
total — 0 
for v in values: 

if not isinstance(v, (int, float)): 

raise TypeError('elements must be numeric') 

total — total4- v 

return total 


抽象 基 类 collections.Iterable 包括 所 有 确保 支持 for 循环 语法 的 Python 迭代 容器 类 型 
(如 ，list、tuple、set)。 我 们 在 1.8 TERTIA, JF EE 1.11 节 讨 论 模块 (如 collections) 的 
使 用 。 在 for 循环 的 主体 内 部 ， 在 将 每 个 元 素 加 到 整体 之 前 ， 要 确认 它 是 数字 。 该 函数 更 直 
接 、 更 清晰 的 实现 如 下 : 


def sum(values): 
total — 0 
for v in values: 
total — total 十 v 
return total 


有 趣 的 是 ， 这 个 简单 实现 完全 像 Python 函数 的 内 置 版 本 。 即 使 没有 显 式 检 查 ， 适 当 的 
异常 也 会 由 代码 自然 抛 出 。 特 别 是 ， 如 果 values 不 是 一 个 迭代 类 型 ， 尝 试 使 用 for 循环 则 会 
引发 TypeError， 同 时 报告 该 对 象 是 不 可 迭代 的 。 在 用 户 传递 了 一 个 包括 非 数 字 化 元 素 的 迭 
代 类 型 的 情况 下 ， 如 sum([3.14, 'oops])， 计 算 表 达 式 total + v 则 自然 会 引发 一 个 TypeError 
异常 ， 然 后 向 调用 者 发 送 错误 信息 


unsupported operand type(s) for +: ’float’ and ’str’ 

可 能 稍微 不 那么 明显 的 错误 来 自 sum(['alpha', 'beta']). “4 total 初始 化 为 0 后， 由 于 表达 
式 total + 'alpha' 的 初始 计算 ， 则 会 报告 整数 与 字符 串 相 加 是 一 个 错误 的 尝试 。 

在 本 书 的 其 余部 分 ， 大 多 数 情况 下 ， 执 行 最 少 的 错误 检查 和 清晰 的 演示 时 ， 我 们 倾向 于 
更 简单 的 实现 。 


1.7.2 ”捕捉 异常 
有 一 些 关于 写 代码 时 如 何 应 对 可 能 出 现 的 异常 情况 的 观点 。 例 如 ， 在 计算 除法 xy 时 ， 
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有 一 定 的 风险 ， 当 变量 ?为 0 时 ， 引 发 ZeroDivisionError 异常 。 在 理想 情况 下 ， 如 果 程 序 的 
逻辑 可 以 表明 yy 是非 零 的 ， 那么 就 不 用 担心 错误 。 然 而 ， 对 于 更 复杂 的 代码 ， 或 在 yy 的 值 取 
决 于 一 些 外 部 输入 的 程序 的 情况 下 ， 仍 有 发 生 错 误 的 可 能 性 。 

处 理 特殊 情况 的 第 一 个 理念 是 三 思 而 后 行 。 想 要 完全 避免 异常 发 生 ， 则 要 使 用 积极 的 条 
件 测试 。 重 温 除 法 的 例子 ， 我 们 可 以 通过 如 下 写法 来 避免 异常 发 生 : 


if y != 0: 
ratio — x / y 
else: 
... do something else ... 


第 二 个 理念 通常 被 Python 程序 员 所 接受 ， 就 是 “请 求 原谅 比 得 到 许可 更 容易 ”。 这 人 句 话 
是 计算 机 科学 的 先驱 Grace Hopper 提出 来 的 。 该 观点 是 指 我 们 不 需要 花费 额外 的 时 间 来 维 
护 每 一 个 可 能 发 生 的 异常 ， 只 要 异常 发 生 时 ， 有 一 个 处 理 问 题 的 机 制 就 可 以 了 。 在 Python 
中 ， 这 一 理念 是 使 用 try-except 控制 结构 来 实现 的 。 回 顾 除法 的 例子 ， 确 保 运 算 正 确 的 代码 
如 下 : 
try: 
ratio=x/y 


except ZeroDivisionError: 
... do something else ... 


在 这 种 结构 中 ，try 块 中 的 代码 是 要 执行 的 ， 虽然 这 个 例子 中 只 有 一 条 命令 ， 不 过 更 多 的 是 
一 个 较 大 块 的 缩 进 代 码 。try 块 后 面 会 跟着 一 个 或 多 个 except FA, WR try 块 中 引发 了 指 
定 的 错误 ， 确 定 的 错误 类 型 和 缩 进 代码 块 都 要 被 执行 。 

使 用 try-except 结构 的 相对 优势 是 ， 非 特殊 情况 下 高 效 运行 ， 不 需要 多 余 的 检查 异常 条 
fF. 然而， 在 处 理 异常 情况 时 ， 使 用 try-except 结构 比 使 用 一 个 标准 的 条 件 语句 会 需要 更 多 
的 时 间 。 为 此 ， 当 我 们 有 理由 相信 异常 情况 是 相对 不 可 能 的 ， 或 主动 评估 条 件 来 避免 异常 代 
价 异常 高 时 ， 最 好 使 用 try-except 语句 。 

当 用 户 输 入 时 或 读 取 文 件 时 ， 异 常 处 理 是 非常 有 用 的 ， 因 为 有 一 些 情况 是 不 可 预测 的 。 
在 1.6.2 WP, 我们 推荐 用 语法 fp = open('sample.txt) 以 读 取 访问 权限 打开 文件 。 该 命令 可 
能 因为 多 种 原因 引发 IOError， 如 一 个 不 存在 的 文件 ， 或 者 缺乏 足够 的 权限 打开 文件 等 。 显 
然 ， 尝 试 输入 命令 然后 捕捉 错误 结果 比 准确 预测 命令 是 否 成 功 会 更 容易 。 

我 们 会 继续 演示 一 些 其 他 形式 的 try-except 语法 结构 ， 当 捕获 异常 时 ， 异 常 对 象 是 可 以 
检测 出 来 的 。 为 了 能 检测 到 ， 一 个 标识 符 需 采用 以 下 语法 建立 : 

E = open('sample.txt') 


except IOError as e: 
print('Unable to open the file:', e) 


在 这 种 情况 下 ， 名 称 e 表 示 抛 出 异常 的 实例 ， 输 出 并 显示 详细 的 错误 消息 (如 “文件 未 
找到 ”) 。 
一 个 try 语句 可 能 处 理 不 止 一 种 类 型 的 异常 。 例 如 ，1.6.1 节 中 的 命令 : 


age = int(input('Enter your age in years: ')) 


这 个 命令 可 能 因为 各 种 各 样 的 原因 而 出 错 。 如 果 控 制 台 输入 出 错 ， 那 么 调用 input 命令 
Sti} EOFError。 如 果 调 用 input 成 功 完成 ， 但 是 用 户 没有 输入 表示 一 个 有 效 整数 的 字符 ， 
那么 int 构造 函数 会 抛 出 ValueError。 如 果 想 要 处 理 两 个 或 两 个 以 上 类 型 的 错误 ， 我 们 可 以 
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使 用 一 个 except 语句 ， 像 下 面 的 例子 : 


age = 一 1 # an initially invalid choice 
while age <= 0: 
try: 
age = int(input('Enter your age in years: ')) 
if age <= 0: 


print('Your age must be positive’) 
except (ValueError, EOFError): 
print(' Invalid response!) 


我 们 希望 使 用 except 语句 来 捕获 异常 ， 使 用 元 组 ( ValueError, EOFError) 来 指定 错误 
类 型 。 在 这 个 实现 中 ,我们 捕获 一 个 错误 ， 就 会 输出 一 个 响应 ， 并 继续 while 循环 。 我 们 注 
意 到 ， 当 一 个 错误 发 生 在 try 块 中 时 ， 剩 下 的 语句 会 直接 跳 过 。 在 这 个 例子 中 ， 如 果 在 调用 
input 中 出 现 异常 或 在 后 续 调用 int 构造 函数 时 发 生 异 常 ， 那 么 age 就 不 会 被 赋值 ， 也 不 会 输 
出 你 的 年 龄 必须 是 正 数 的 信息 。 因 为 age 值 没 有 改变 ， 所 以 while 循环 也 将 继续 。 如 果 希 望 
在 不 输出 "Invalid response' 的 情况 下 继续 while 循环 ， 我 们 可 以 写 入 except 语句: 


except (ValueError, EOFError): 
pass 


关键 词 pass 仅仅 是 一 个 声明 ， 但 它 可 以 作为 一 种 控制 结构 的 主体 。 这 样 ， 我 们 就 “ 悄 
悄 ” 地 捕获 异常 ， 从 而 允许 while 循环 继续 。 

为 了 对 不 同类 型 的 错误 提供 不 同 的 响应 ,我 们 可 以 使 用 两 个 或 两 个 以 上 except 语句 作 
为 try 结构 的 一 部 分 。 在 前 一 个 例子 中 ，EOFError 表明 不 可 逾越 的 错误 不 仅仅 是 输入 了 一 个 
错误 值 。 在 这 种 情况 下 ， 我 们 希望 能 提供 更 准确 的 错误 信息 ,或 者 是 允许 异常 能 中 断 循环 并 
传达 给 上 下 文 。 我 们 可 以 通过 以 下 方法 实现 : 


age = —1 # an initially invalid choice 
while age <= 0: 
try: 
age = int(input('Enter your age in years: ')) 
if age <= 0: 


print('Your age must be positive!) 
except ValueError: 
print('That is an invalid age specification’) 
except EOFError: 
print('There was an unexpected error reading input.') 
raise # let's re-raise this exception 


在 这 个 实现 中 ， 对 于 ValueError 和 EOFError 情况 ， 我 们 有 单独 的 except 语句 。 处 理 
EOFError 的 语句 体 依 赖 于 Python 中 的 另 一 种 技术 。 它 使 用 raise 语句 且 没 有 其 他 后 续 参 
数 来 重新 抛 出 相同 的 目前 正在 处 理 的 异常 。 这 使 我 们 对 异常 能 提供 自己 的 响应 ， 然 后 中 断 
while 循环 并 向 上 传播 。 

最 后 ， 我 们 注意 到 Python 中 try-except 结构 的 另外 两 个 特征 。 它 允许 最 后 一 个 except if 
句 不 加 特定 的 错误 类 型 ， 直 接 使 用 “except:” 来 捕获 一 些 其 他 异常 ， 不 过 这 种 技术 比较 少 用 ， 
因为 对 于 如 何 处 理 一 个 未 知 类 型 的 异常 是 比较 困难 的 。 一 个 try 语句 允许 有 finally 子 句 ， 这 
个 子 句 中 的 代码 总 是 会 被 执行 ， 无 论 是 在 正常 情况 下 还 是 在 异常 情况 下 ， 甚 至 是 未 捕获 异常 
或 重复 抛 出 异常 的 情况 下 。 通 常 该 代码 块 是 用 于 清理 工作 的 ， 如 关闭 一 个 文件 。 


1.8 jE MEME 
在 1.4.2 节 中 ， 我 们 使 用 了 以 下 语句 介绍 for 循环 语法 : 
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for element in iterable: 

我 们 注意 到 ，Python 中 有 许多 类 型 的 对 象 可 以 被 定义 为 可 迭代 的 。 基 本 的 容器 类 型 ， 
如 列表 、 元 组 和 和 集合， 都 可 以 定义 为 迭代 类 型 。 此 外 ,字符 串 可 以 产生 它 的 字符 的 迭代 ， 字 
典 可 以 生成 它 的 键 的 迭代 ,文件 可 以 产生 它 的 行 的 迭代 。 用 户 自 定义 类 型 也 可 支持 迭代 。 在 
Python 中 ， 迭 代 的 机 制 基于 以 下 规定 : 

e 迭代 器 是 一 个 对 象 ， 通 过 一 系列 的 值 来 管理 迭代 。 如 果 变 量 i 定义 为 一 个 

迭代 器 对 象 ， 接 下 来 每 次 调用 内 置 函数 nextti)， 都 会 从 当前 序列 中 产生 一 个 后 续 的 
元 素 ; 要 是 没有 后 续 元 素 了 ， 则 会 抛 出 一 个 StopIteration 异常 。 

e WK obj 是 可 迭代 的 ， 那 么 通过 语法 iter(obj) 可 以 产生 一 个 迭代 器 。 

通过 这 些 定 义 ,list 的 实例 是 可 迭代 的 ， 但 它 本 身 不 是 一 个 迭代 器 。 如 data = [1, 2, 4, 8], 
调用 next(data) 是 非法 的 。 然 而 ， 通 过 语法 i = iter(data) 则 可 以 产生 一 个 迭代 器 对 象 ， 然 后 
调用 next(i) 将 返回 列表 中 的 元 素 。Python 中 的 for 循环 语法 使 这 个 过 程 自动 化 ， 为 可 迭代 的 
对 象 创造 了 一 个 迭代 器 ， 然 后 反复 调用 下 一 个 元 素 直 至 捕获 Stoplteration 异常 。 

一 般 情况 下 ， 基 于 同一 个 可 迭代 对 象 可 以 创建 多 个 和 迭代 器 ， 同 时 每 个 迭代 器 维护 自身 演 
进 的 状态 。 不 过 ， 和 迭代 器 通常 通过 间接 引用 回 到 初始 的 元 素 集合 维护 其 状态 。 例 如 ， 对 列表 
实例 调用 iter(data) 会 产生 list iterator 类 的 一 个 实例 。 和 迭代 器 不 存储 自己 列表 的 元 素 。 相 反 ， 
它 保存 原始 列表 的 当前 索引 ， 该 索引 指向 下 一 个 元 素 。 因 此 ， 如 果 原 始 列 表 的 内 容 在 迭代 器 
构造 之 后 但 在 迭代 完成 之 前 被 修改 ， 和 迭代 器 将 报告 原始 列表 的 更 新 内 容 。 

Python 还 支持 产生 隐 式 迭代 序列 值 函 数 和 类 ， 即 无 须 立刻 构建 数据 结构 来 存储 它 所 有 
的 值 。 例 如 ， 调 用 range(1000000) 不 是 返回 一 个 数字 列表 ， 而 是 返回 一 个 可 迭代 的 range 对 
象 。 这 个 对 象 只 有 在 需要 的 时 候 一 次 性 产生 百 万 个 值 。 这 样 的 懒惰 计算 法 有 很 大 的 优势 。 在 
range 的 例子 中 ， 它 允许 执行 “ for j in range(1000000):” 这 样 的 循环 形式 ， 无 须 留 出 内 存 来 
存储 一 百 万 个 值 。 同 样 ， 如 果 这 样 一 个 循环 以 某 种 方式 被 打 断 ， 也 不 用 花 时 间 来 计算 range 
中 未 使 用 的 值 。 

我 们 发 现 懒惰 计算 在 Python 中 的 许多 库 中 都 用 到 了 ， 例 如 ， 字 典 类 支持 方法 keys()、 
values() 和 items()， 它 们 分 别 在 字典 中 产生 所 有 keys, values 或 (key, value) 的 “视图 ”。 
这 些 方法 没有 一 个 能 产生 显 式 的 结果 列表 ， 相 反 ， 产 生 的 视图 是 基于 字典 的 实际 内 容 的 可 和 迭 
代 对 象 。 从 这 样 的 迭代 中 而 来 的 一 个 显 式 值 的 列表 可 以 通过 将 迭代 作为 参数 调用 list 构造 器 
来 快速 构造 ， 例 如 ， 语 法 list(range(1000)) 会 生成 一 个 值 为 0 ~ 999 的 列表 实例 ， 然 而 语法 
list(d.values()) 则 会 生成 一 个 其 元 素 基 于 字典 d 的 当前 值 生成 的 列表 ， 同样， 我 们 可 以 基于 
所 给 的 迭代 器 简单 地 创建 元 组 或 集合 实例 。 

生成 器 

在 2.3.4 节 中 ， 我们 将 解释 如 何 定 义 一 个 类 一 一 其 实例 作为 迭代 器 使 用 。 人 然而， 在 
Python 中 创建 迭代 器 最 方便 的 技术 是 使 用 生成 器 。 生 成 器 的 语法 实现 类 似 于 函数 ， 但 不 返 
回 值 。 为 了 显示 序列 中 的 每 一 个 元 素 ， 会 使 用 yield 语句 。 作 为 一 个 例子 ， 考 虑 确定 一 个 正 
整数 的 所 有 因子 。 例 如 ， 数 字 100 有 因子 1, 2, 4, 5, 10, 20, 25, 50, 100。 传 统 的 函数 可 能 会 
产生 并 返回 一 个 包含 所 有 因子 的 列表 ， 实 现 如 下 : 


def factors(n): # traditional function that computes factors 
results — [] # store factors in a new list 
for k in range(1,n--1): 
if n % k —— 0: # divides evenly, thus k is a factor 





results.append(k) # add k to the list of factors 
return results # return the entire list 
而 生成 器 中 计算 这 些 因子 的 实现 如 下 : 
def factors(n): # generator that computes factors 
for k in range(1, n4-1): 
if n 96 k —— 0: # divides evenly, thus k is a factor 
yield k # yield this factor as next result 


注意 : 我 们 使 用 关键 字 yield 而 不 是 return 来 表示 结果 。 这 表明 在 Python 中 ， 我 们 正在 定 
义 一 个 生成 器 ， 而 不 是 传统 的 函数 。 在 同一 实现 中 ,将 yield 和 return 语句 结合 起 来 是 非法 的 ， 
一 个 没有 返回 参数 的 retum 语句 也 会 导致 生成 器 终止 执行 。 如 果 一 个 程序 员 写 了 一 个 循环 如 
" for factor in factors(100):”， 那 么 会 创建 一 个 生成 器 的 实例 。 在 每 次 循环 迭代 中 ，Python 执行 
程序 直到 一 个 yield 语句 指出 下 一 个 值 为 止 。 在 这 一 点 上 ， 该 程序 是 暂时 中 断 的 ， 只 有 当 另 一 
个 值 被 请 求 时 才 恢 复 。 当 控制 流 自然 到 达 程 序 的 末尾 时 (或 碰 到 一 个 零 参 数 的 return 语句 )， 会 
自动 抛 出 一 个 Stoplteration 异常 。 虽 然 这 个 特殊 的 例子 在 源 代码 中 使 用 单一 的 yield 语句 ,但 
生成 器 可 以 依赖 不 同 构造 中 的 多 个 yield 语句 ， 以 及 由 控制 的 自然 流 决定 的 生成 序列 。 例 如 ， 
我 们 可 以 显著 提高 生成 费 的 效率 ， 在 计算 整数 的 因子 时 ,仅仅 通过 使 测试 值 达 到 这 个 数 的 平 
方 根 ， 同 时 指出 与 每 个 k 相 关联 的 因子 wk (除非 nWk 等 于 有 )。 这 样 的 生成 器 可 以 实现 如 下 : 


def factors(n): # generator that computes factors 
k=1 
while k * k < n: 3 while k < sqrt(n) 
if n 96 k —— 0: 
yield k 
yield n // k 
k+=1 
if kæ k== n # special case if n is perfect square 


yield k 


我 们 应 该 注意 到 ， 这 个 生成 器 的 实现 与 我 们 的 第 一 个 版 本 不 同 ， 因 为 这 些 因子 不 是 以 严 
格 递增 的 顺序 产生 的 。 例 如 ，factors(100) 产生 序列 1, 100, 2, 50, 4, 25, 5, 20, 10。 

总 之 ， 我 们 在 使 用 生成 器 而 不 是 传统 的 函数 时 ， 总 是 强调 懒惰 计算 的 好 处 一 一 只 计算 
需要 的 数 ， 并 且 整 个 系列 的 数 不 需 要 一 次 性 全 部 驻 留 在 内 存 中 。 事 实 上 ， 一 个 生成 器 可 以 有 
效 地 产生 数值 的 无 限 序 列 。 作 为 一 个 例子 ， 斐 波 那 契 数 列 是 一 个 经 典 的 数学 序列 ， 初 始 值 为 


0， 接 着 值 为 1， 然 后 每 个 后 续 的 值 是 前 两 个 值 的 总 和 。 因 此 ， 斐 波 那 契 数列 以 0, 1, 1, 2, 3, 
5, 8, 13，… 开 始 。 下 面 的 生成 器 可 以 产生 这 个 无 穷 级 数 。 
def fibonacci( ): 
a=0 
b=1 
while True: # keep going. 
yield a # report value, a, during this pass 
future = a + b 
a=b # this will be next value reported 
b = future # and subsequently this 


1.9 Python 的 其 他 便利 特点 

在 本 节 中 ， 我 们 介绍 Python 的 阁 干 特性 ， 这 些 特性 尤其 便于 编写 清晰 、 简 洁 的 代码 。 
这 些 语法 提供 了 一 些 功能 ， 这 些 功能 可 以 用 本 章 前 面 提 到 的 功能 实现 。 不 过 ， 有 时 候 新 语法 
会 有 更 清晰 和 直接 的 逻辑 表达 。 
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1.9.1 条 件 表达 式 

Python 支持 条 件 表 达 式 的 语法 ， 可 以 取代 一 个 简单 的 控制 结构 。 一 般 语法 表达 式 的 语 
法 形式 如 下 : 

expr1 if condition else expr2 
对 于 这 种 复合 表达 式 ， 如 果 条 件 为 真 ， 则 计算 expri; 否则 ， 计算 expr2。 这 相当 于 Java EX 
C++ 中 的 语法 “condition ? expr 1: expr2” o 

考虑 这 样 一 个 例子 ， 将 变量 n 的 绝对 值 传递 给 一 个 函数 (不 依赖 内 置 函数 abs 的 功能 )。 
若 使 用 传统 控制 结构 ， 可 实现 如 下 : 


if n >= 0: 
param — n 
else: 
param — —n 
result — foo(param) # call the function 
在 条 件 表达 式 的 语法 中 ， 我们 可 以 直接 给 变量 param 赋值 ， 如 下 所 示 : 
param = n if n >= 0 else —n # pick the appropriate value 
result = foo(param) # call the function 


事实 上 ， 没 有 必要 将 复合 表达 式 赋值 给 变量 。 条 件 表达 式 本 身 就 可 以 作为 一 个 函数 的 参数 ， 
如 下 所 示 : 


result — foo(n if n >= 0 else —n) 


有 时 ， 只 缩短 源 代码 是 有 好 处 的 ， 因 为 它 避 免 了 更 繁琐 的 控制 结构 。 不 过 ， 我 们 建议 仅 
当 一 个 条 件 表达 式 能 提高 源 代码 的 可 读 性 ， 或 者 当 两 个 选项 的 第 一 个 是 更 “自然 ”的 情况 
下 ,为 了 在 语法 上 强调 其 重要 性 才 使 用 。( 我 们 希望 当 异 常 发 生 时 可 以 查看 变量 的 值 。) 


1.9.2 解析 语法 


一 个 很 常见 的 编程 任务 是 基于 另 一 个 序列 的 处 理 来 产生 一 系列 的 值 。 通 常 ， 这 个 任务 在 
Python 中 使 用 所 谓 的 解析 语法 后 实现 很 简单 。 我 们 先 演示 列表 解析 语法 ， 因 为 这 是 Python 
支持 的 第 一 种 形式 。 它 的 一 般 形式 如 下 : 


[ expression for value in iterable if condition ] 


我 们 注意 到 expression 和 condition 都 取决 于 value, m 直子 句 是 可 选 的 。 解 析 计 算 与 下 
面 的 传统 控制 结构 计算 结果 列表 在 逻辑 上 是 等 价 的 。 

result = [ ] 

for value in iterable: 

if condition: 
result.append(expression) 

举 一 个 具体 的 例子 ， 数 字 Y n 的 平方 的 列表 是 [1, 4, 9, 16, 25, =, m ]， 这 可 以 

通过 传统 方式 实现 如 下 : 


squares — [] 
for k in range(1, n+1): 
squares.append(k+k) 


使 用 列表 解析 ， 这 个 逻辑 表达 式 的 实现 如 下 : 


squares = [k*k for k in range(1, n+1)] 


青 举 一 个 例子 ，1.8 节 介 绍 的 求 一 个 整数 的 因子 的 列表 ， 其 使 用 列表 解析 的 实现 如 下 : 
factors = [k for k in range(1,n+1) if n % k == 0] 


Python 支持 类 似 的 集 、 生 成 器 或 字典 的 解析 语法 。 我 们 通过 “计算 数字 的 平方 ”的 例 
子 来 比较 这 些 语法 。 


[ kæk for k in range(1, n+1) ] 列表 解析 
{ k*k for k in range(1, n+1) } 集合 解析 
( k*k for k in range(1, n+1) ) 生成 器 解析 


{ k: kek for k in range(1, n-1)) 字典 解析 

当 结 果 不 需 要 存储 在 内 存 中 时 ， 生 成 器 语法 特别 有 优势 。 例 如 ， 计 算 前 二 个 数 的 平方 
和 ， 生 成 器 语法 total = sum(k * k for k in range(1, n + 1)) 是 一 种 推荐 的 方法 ， 该 方法 将 列表 
作为 参数 使 用 。 


1.9.3 序列 类 型 的 打包 和 解 包 


Python 提供 了 另外 两 个 涉及 元 组 和 其 他 序列 类 型 的 处 理 的 便利 。 第 一 个 便利 是 相当 明 
显 的。 如果 在 大 的 上 下 文中 给 出 了 一 系列 逗号 分 隔 的 表达 式 ， 它 们 将 被 视 为 一 个 单独 的 元 
组 ， 即 使 没有 提供 封闭 的 圆 括号 。 例 如 ， 命 令 

data — 2, 4, 6, 8 
会 使 标识 符 data 赋值 成 元 组 (2, 4, 6, 8)， 这 种 行为 被 称 为 元 组 的 自动 打包 。 在 Python 中 ， 
另 一 种 常用 的 打包 是 从 一 个 函数 中 返回 多 个 值 。 如 果 函 数 体 执行 命令 

return x, y 
就 自动 返回 单个 对 象 ， 也 就 是 元 组 (x, y)。 

作为 一 个 对 偶 的 打包 行为 ，Python 也 可 以 自动 解 包 一 个 序列 ， 允 许 单个 标识 符 的 一 系 
列 元 素 赋值 给 序列 中 的 各 个 元 素 。 例 如 ， 我 们 可 以 这 样 写 

a, b, c, d = range(7, 11) 

这 与 a=7、b= 8、c=9 和 d= 10 的 赋值 效果 一 样 ， 只 要 调用 range 函数 ， 就 会 返回 序列 中 
的 4 个 值 。 对 于 这 个 语法 ， 右 边 的 表达 式 可 以 是 任何 迭代 类 型 ， 只 要 左边 的 变量 数 等 于 右边 
迭代 的 元 素数 。 

这 种 技术 可 以 用 来 解 包 一 个 函数 返回 的 元 组 。 例 如 ， 内 置 的 函数 divmod(a, b)， 返 回 这 个 
整除 相关 的 一 对 数值 (a//b, a 96 b)。 尽 管 调用 者 可 以 认为 返回 值 是 一 个 元 组 ， 但 也 可 以 写成 
以 下 形式 : 

quotient, remainder = divmod(a, b) 

来 分 别 标识 返回 的 元 组 中 的 两 个 值 。 这 个 语法 也 可 以 使 用 在 for 循环 中 ， 当 遍历 迭代 序列 时 ， 就 像 : 
for x, y in [ (7, 2), (5. 8), (6, 4) ]: 

在 这 个 例子 中 ， 将 循环 执行 3 次 。 第 一 次 为 x=7,y=2， 然 后 以 此 类 推 。 这 种 循环 的 风格 常 

用 于 遍历 由 字典 类 的 item) 方法 返回 的 键 值 对 ， 就 像 : 


for k, v in mapping.items(): 

同时 分 配 

自动 打包 和 解 包 结合 起 来 就 是 同时 分 配 技 术 ， 即 我 们 显 式 地 将 一 系列 的 值 赋 给 一 系列 标 
识 符 ， 所 用 语法 为 : 
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xy, AA 
实际 上 ， 该 赋值 右边 将 自动 打包 成 一 个 元 组 ， 然 后 自动 解 包 ， 将 它 的 元 素 分 配给 左边 的 三 个 
标识 符 。 


当 使 用 同时 分 配 技术 时 ， 所 有 表达 式 都 是 在 对 左边 的 变量 赋值 之 前 先 计 算 右 侧 。 这 一 点 
很 重要 ， 因 为 它 提供 了 一 种 方便 的 方法 ， 用 来 交换 与 两 个 变量 相关 联 的 值 : 

jk-kj 
有 了 这 个 命令 ， 原 来 的 k 值 赋 给 j， 原 来 的 j 值 赋 给 k。 如 果 没 有 同时 分 配 技术 ， 那 么 一 个 典 
型 的 交换 需要 使 用 一 个 临时 变量 ， 如 : 

temp — j 

j=k 

k = temp 
有 了 同时 分 配 技术 ， 在 执行 交换 时 ， 代 表 右 边 打包 值 的 未 命名 元 组 相当 于 隐 式 的 临时 变量 。 

使 用 同时 分 配 技术 可 以 大 大 简化 代码 演示 。 作 为 一 个 例子 ， 我 们 考虑 1.8 WERKIE 
那 契 数列 。 原 来 的 代码 需要 对 序列 开始 的 变量 a 和 b 初始 化 。 在 每 一 次 循环 中 ， 其 目标 是 给 
a Fb 分别 赋 予 b 和 a+b 的 值 。 当 时 我 们 完成 这 个 目标 时 使 用 了 第 三 个 变量 。 有 了 同时 分 
配 技术 ， 生 成 器 直接 按 以 下 方式 实现 : 


def fibonacci( ): 
a b=. 1 
while True: 
yield a 
a, b = b, a+b 


1.10 ”作用 域 和 命名 空间 

MFE Python 中 以 x + y 计算 两 数 的 和 时 ，x FIL y 这 两 个 名 称 一 定 要 与 先前 作为 值 的 对 象 相关 
联 ; 如果 没 有 找到 相关 定义 ， 会 抛 出 一 个 NameEorror 异常 。 确 定 与 标识 符 相 关联 的 值 的 过 程 称 
为 名 称 解 析 。 

每 当 标 识 符 分 配 一 个 值 ， 这 个 定义 都 有 特定 的 范围 。 最 高 级 赋值 通常 是 全 局 范围 ， 对 于 
在 函数 体内 的 赋值 ， 其 范围 通常 是 该 函数 调用 的 局 部 。 因 此 ， 函 数 体 内 的 x = 5 对 外 部 函数 
标识 符 x 没有 影响 。 

Python 中 的 每 一 个 定义 域 使 用 了 一 个 抽象 名 称 ， 称 为 命名 空间 。 命 名 空间 管理 当前 在 
给 定 作用 域内 定义 的 所 有 标识 符 。 图 1-8 描绘 了 两 个 命名 空间 ， 一 个 是 1.5 节 调 用 count K 
数 的 命名 空间 ， 另 一 个 是 在 函数 执行 过 程 中 本 地 的 命名 空间 。 





图 1-8 两 个 命名 空间 的 描述 都 与 1.5 节 定 义 的 用 户 调用 的 count(grade, 'A') 相关 。 左 边 的 是 调用 者 的 
命名 空间 ， 右 边 的 是 函数 本 地 范围 的 命名 空间 





Python 实现 命名 空间 是 用 自己 的 字典 将 每 个 标识 符 字符 串 (例如 'n') 映射 到 其 相关 的 
值 。Python 还 提供 了 几 种 方法 来 检查 一 个 给 定 的 命名 空间 。 函 数 dir() 报告 给 定 命 名 空间 中 
的 标识 符 的 名 称 ( 即 字 典 的 键 )， 而 函数 var() 返回 完整 的 字典 。 默 认 情 况 下 ， 调 用 diro 和 
var() 报告 的 是 执行 过 程 中 本 地 封闭 的 命名 空间 。 

在 命令 中 指示 标识 符 时 ，Python 会 在 名 称 解 析 过 程 中 搜索 一 系列 的 命名 空间 。 首 先 ， 
搜索 的 是 所 给 名 字 的 本 地 命名 空间 ， 若 没 找 到 ， 则 搜索 外 一 层 的 命名 空间 ， 然 后 以 此 类 推 。 
在 2.5 节 讨 论 面 向 对 象 的 处 理 时 ， 我 们 还 会 继续 讨论 命名 空间 ， 我 们 会 发 现 每 个 对 象 都 有 自 
己 的 命名 空间 存储 其 属性 ， 每 个 类 也 都 有 自己 的 命名 空间 。 

第 一 类 对 象 

在 编程 语言 的 术语 中 ， 第 一 类 对 象 是 一 些 可 以 分 配给 一 个 标识 符 的 类 型 的 实例 ， 可 作为 
参数 传递 ， 或 由 一 个 函数 返回 。 我 们 在 1.2.3 节 介 绍 的 所 有 数据 类 型 ， 如 int 和 list， 无 疑 都 
是 Python 中 的 第 一 类 类 型 ， 函 数 和 类 也 作为 第 一 类 对 象 处 理 。 例 如 : 


scream = print # assign name ‘scream’ to the function denoted as ‘print’ 
scream('Hello') # call that function 


在 这 个 例子 中 ， 我 们 没有 创建 新 的 图 数 ， 只 是 简单 地 将 scream 定义 为 现 有 print 函数 的 别 
名 。 使 用 这 个 例子 还 有 一 个 目的 ， 它 说 明了 Python 允许 一 个 函数 作为 参数 传递 到 男 一 个 也 
数 的 机 制 。 在 1.5.2 节 ， 我 们 注意 到 ， 当 计算 最 大 值 时 ， 内 置 函 数 max() 可 接收 一 个 可 选 的 
关键 字 参 数 去 指定 一 个 非 默 认 的 序列 。 例 如 ,调用 者 可 以 使 用 语法 max(a, b, key = abs), LJ 
确定 哪个 值 有 更 大 的 绝对 值 。 在 该 函数 的 主体 中 ， 形 式 参 数 key 是 将 要 赋值 给 实际 参数 abs 
的 标识 符 。 

就 命名 空间 而 言 ， 赋 值 语句 如 scream = print 将 标识 符 scram 引入 当前 的 命名 空间 ， 其 
值 表示 的 是 内 置 函 数 对 象 print。 同 样 的 机 制 也 可 以 应 用 在 用 户 定 义 的 函数 声明 中 。 例 如 ， 
1.5 节 的 count 函数 的 声明 语法 : 


def count(data, target): 


这 样 一 个 声明 将 标识 符 count 引入 了 命名 空间 ， 它 的 值 是 一 个 表示 其 实现 的 函数 实例 。 类 似 
的 ， 新 定义 的 类 的 名 称 与 该 类 的 值 的 表示 形式 相关 联 (我 们 将 在 下 一 章 介绍 类 的 定义 )。 


1.11 模块 和 import 语句 


我 们 已 经 介绍 了 Python 内 置 命 名 空间 定义 的 很 多 函数 (例如 max) 和 类 (例如 list)。 
基于 Python 的 版 本 ,我 们 认为 大 约 有 130 — 150 种 确实 重要 的 定义 包含 在 内 置 命 名 空 
间 中 。 

除了 内 置 的 定义 外 ,标准 的 Python 分 配 包括 数 以 千 计 的 数值 、 函 数 以 及 被 组 织 在 附加 
库 中 的 类 〈 称 为 模块 ， 一 个 程序 内 可 以 导入 )。 作 为 一 个 例子 ， 我 们 考虑 math 模块 。 虽然 内 
置 命名 空间 包含 一 些 数学 函数 (如 , abs, min, max, round)， 但 更 多 的 是 归 为 math 模块 (如 ， 
sin, cos, 、sqrt)。 该 模块 还 定义 了 数学 常数 pi 和 e 的 近似 值 。 

Python 的 import 声明 可 以 将 定义 从 一 个 模块 载 人 当前 命名 空间 。import 语句 的 语法 形 
式 如 下 : 


from math import pi, sqrt 


这 个 命令 将 在 math 模块 定义 的 pi 和 sqrt 添加 到 当前 的 命名 空间 ， 人 允许 直接 使 用 标识 符 pi, 
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或 调用 函数 sqrt(2)。 如 果 有 许多 定义 来 自 导 入 的 同一 模块 ， 则 可 以 使 用 *， 如 from math 
import * ， 但 这 种 形式 应 谨慎 使 用 。 危 险 在 于 ， 模 块 中 定义 的 一 些 名 称 可 能 与 当前 命名 空 
间 中 的 名 称 冲突 (或 与 导入 的 另 一 个 模块 冲突 )， 而 导入 的 模块 会 产生 新 定义 去 替换 原 有 的 
定义 。 

另 一 种 可 以 用 于 从 相同 模块 访问 许多 定义 的 方法 是 导入 模块 本 身 ， 使 用 如 下 语法 : 


import math 


同时 将 标识 符 math 以 及 作为 其 值 的 模块 引入 当前 的 命名 空间 (模块 在 Python 中 是 第 一 类 
对 象 ) 。 一 旦 引入 ， 模 块 中 的 定义 可 以 用 一 个 完全 限定 的 名 称 来 访问 ， 例 如 math.pi 或 者 
math.sqrt(2)。 

创建 新 模块 

要 创建 一 个 新 模块 ， 你 只 需要 简单 地 把 相关 的 定义 放 在 一 个 扩展 名 为 .py 的 文件 里 。 
这 些 定义 可 以 从 同一 工程 目录 下 的 其 他 .py 文件 中 导入 。 例 如 ， 如 果 我 们 把 计数 函数 的 定 
X. ( 见 1.5 15) 放 到 utility.py 文件 中 ,那么 可 以 使 用 语法 from utility import count 来 导入 该 
count PK. 

值得 注意 的 是 ， 当 第 一 次 导入 模块 时 ， 模 块 源 代码 的 顶层 命令 会 被 执行 ， 就 好 像 这 个 模 
块 是 自己 的 脚本 。 在 模块 中 ， 如 果 该 模块 被 直接 调用 作为 一 个 脚本 ， 而 不 是 从 另 一 个 脚本 导 
人 模块 时 ， 将 执行 该 模块 中 能 人 命令 的 特殊 构造 。 

这 样 的 命令 应 该 放 在 如 下 形式 的 条 件 语句 中 : 


if |. name. == '__main__': 
以 我 们 假设 的 utility.py 模块 为 例 ， 如 果 解 释 器 通过 Python utility.py 的 命令 启动 ， 但 utility. 
py 模块 不 是 从 其 他 上 下 文中 导入 ， 这 些 命令 将 会 执行 。 这 种 方法 通常 用 于 能 入 模块 的 单元 
测试 。 我 们 将 在 2.2.4 节 进 一 步 讨 论 单元 测试 。 
现 有 模块 


表 1-7 给 出 了 一 些 可 用 的 与 数据 结构 的 研究 相关 的 模块 小 结 。 之 前 我 们 已 经 简略 地 讨论 
过 math 模块 了 。 在 本 节 的 其 余部 分 ， 我 们 将 重点 介绍 另 一 个 对 于 我 们 在 本 书后 面 研 究 的 一 
些 数据 结构 和 算法 特别 重要 的 模块 。 


表 1-7 ”一 些 与 数据 结构 和 算法 相关 的 现 有 Python 模块 


模块 名 描述 
array 为 原始 类 型 提供 了 紧凑 的 数组 存储 
collections 定义 额外 的 数据 结构 和 包括 对 象 集合 的 抽象 基 类 
copy 定义 通用 函数 来 复制 对 象 
heapq 提供 基于 堆 的 优先 队列 函数 (参见 9.3.7 节 ) 
math 定义 常见 的 数学 常数 和 函数 
os 提供 与 操作 系统 交互 
random 提供 随机 数 生成 
Re 对 处 理 正 则 表达 式 提 供 支持 
sys 提供 了 与 Python 解释 器 交互 的 额外 等 级 


time 对 测量 时 间或 延迟 程序 提供 支持 
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伪 随 机 数 生成 

Python 的 random 模块 能 够 生成 伪 随 机 数 ， 即 数字 是 统计 上 随机 的 (但 不 一 定 是 真正 随 
机 的 )。 伪 随机 数 生成 器 使 用 一 个 确定 的 公式 来 根据 一 个 或 多 个 过 去 数字 生成 的 序列 来 产生 
下 一 个 数 。 事 实 上 ， 一 个 简单 而 流行 的 伪 随 机 数 生成 器 选择 它 的 下 一 个 数字 是 基于 最 近 选 择 
的 数 和 一 些 额 外 的 参数 ， 所 使 用 的 公式 如 下 : 


next = (a*current + b) % n; 


这 里 的 a、b 和 n 是 适当 选择 的 整数 。Python 使 用 更 先进 的 技术 梅森 旋转 算法 (Mersenne 
twister) 。 事 实证 明 这 些 技术 所 产生 的 序列 是 系统 统一 的 ， 对 于 大 多 数 需 要 随机 数字 的 应 用 
程序 (比如 游戏 ) 通常 是 足够 的 。 对 于 应 用 程序 ， 如 计算 机 安全 设置 这 样 一 个 需要 不 可 预测 
的 随机 序列 的 程序 ， 就 不 应 该 使 用 这 种 公式 。 相 反 ， 我 们 需要 真正 随机 的 理想 样本 ， 如 来 自 
外 太空 的 静态 无 线 电 。 

由 于 伪 随 机 数 生 成 器 中 的 下 一 个 数 是 由 前 一 个 数 决定 的 ， 这 样 的 发 生 器 总 是 需要 一 个 开 
始 的 数字 ， 这 就 是 所 谓 的 种 子 。 一 个 给 定 的 种 子 产生 的 序列 将 永远 是 相同 的 。 要 在 每 次 程序 
运行 时 得 到 不 同 序 列 ， 一 个 常见 的 技巧 是 每 次 运行 时 使 用 不 同 的 种 子 。 例 如 ,我们 可 以 用 来 
自 某 个 用 户 输入 的 或 当前 以 毫秒 为 单位 的 系统 时 间作 为 种 子 。 

Python 的 random 模块 通过 定义 一 个 Random 类 支持 伪 随 机 数 生成 ， 这 个 类 的 实例 作为 
有 独立 状态 的 生成 器 〈 见 表 1-8 )。 这 人 允许 一 个 程序 的 不 同方 面 依靠 自己 的 伪 随 机 数 生成 器 ， 
因此 ， 一 个 生成 器 的 调用 不 影响 由 另 一 个 生成 器 产生 的 数字 的 序列 。 为 了 方便 ，Random 类 
支持 的 所 有 方法 在 random 模块 中 都 有 支持 的 独立 函数 (基本 上 单个 的 生成 器 实例 可 用 于 所 
有 的 顶级 调用 )。 


表 1-8 Random 类 的 实例 支持 的 方法 和 random 模块 的 顶级 函数 








语 法 dá x 
seed(hashable) 基于 参数 的 散 列 值 初始 化 伪 随 机 数 生 成 器 
random() 在 开 区 间 (0.0, 1.0 ) 返回 一 个 伪 随 机 浮 点 值 
randint(a, b) 在 闭 区 间 [a, b] 返回 一 个 伪 随 机 整数 
randrange(start, stop, step) 在 参数 指定 的 Python 标准 范围 内 返回 一 个 伪 随 机 整数 
choice(seq) 返回 一 个 伪 随 机 选择 的 给 定 序列 中 的 元 素 
shuffle(seq) 重新 排列 给 定 的 伪 随 机 序列 中 的 元 素 
1.42 练习 
请 访问 www.wiley.com/college/goodrich 以 获得 练习 帮助 。 


巩固 

R-1.1 编写 一 个 Python 函数 is multiple(n, m)， 用 来 接收 两 个 整数 值 n 和 mm， 如 果 n 是 m 的 倍数 ， 即 
存在 整数 i 使 得 n= mi， 那 么 函数 返回 True， 否 则 返回 False. 

R-1.2 编写 一 个 Python 函数 is_even(k)， 用 来 接收 一 个 整数 k， 如 果 k 是 偶数 返回 True， 否 则 返回 
False。 但 是 ， 函 数 中 不 能 使 用 乘法 、 除 法 或 取 余 操 作 。 

R-1.3 ”编写 一 个 Python 函数 minmax(data)， 用 来 在 数 的 序列 中 找 出 最 小 数 和 最 大 数 ， 并 以 一 个 长 度 
为 2 的 元 组 的 形式 返回 。 注 意 : 不 能 通过 内 置 函 数 min Fil max 来 实现 。 

R-1.4 编写 一 个 Python PRX, FDR BCE Rn, RE ~ n 的 平方 和 。 


R-1.5 
R-1.6 
R-1.7 
R-1.8 
R-1.9 
R-1.10 


R-1.11 
R-1.12 


创新 


C-1.13 


C-1.14 


C-1.15 


C-1.16 


C-1.17 


C-1.18 
C-1.19 
C-1.20 


C-1.21 


C-1.22 


C-1.23 


C-1.24 
C-1.25 
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基于 Python 的 解析 语法 和 内 置 函 数 sum， 写 一 个 单独 的 命令 来 计算 练习 R-1.4 中 的 和 。 

编写 一 个 Python 函数 ， 用 来 接收 正 整 数 n， 并 返回 1 ~ n 中 所 有 奇数 的 平方 和 。 

基于 Python 的 解析 语法 和 内 置 函数 sum， 写 一 个 单独 的 命令 来 计算 练习 R-1.6 中 的 和 。 

Python 允许 负 整 数 作为 序列 的 索引 值 ， 如 一 个 长 度 为 n FREE s, RIME- n <k<0 时 ， 

所 指 的 元 素 为 s[k]， 那 么 求 一 个 正 整 数 索 引 值 j 二 0， 使 得 sj] 指向 的 也 是 相同 的 元 素 。 

要 生成 一 个 值 为 50, 60, 70, 80 的 排列 ， 求 range 构造 函数 的 参数 。 
要 生成 一 个 值 为 8, 6, 4, 2,0,-2,-4,-6,-8 的 排列 ， 求 range 构造 函数 中 的 参数 。 
演示 怎样 使 用 Python 列表 解析 语法 来 产生 列表 [1, 2, 4, 8, 16, 32, 64, 128, 256]. 
Python 的 random 模块 包括 一 个 函数 choice(data)， 可 以 从 一 个 非 空 序列 返回 一 个 随机 元 素 。 
Random 模块 还 包含 一 个 更 基本 的 randrange 函数 ， 参 数 化 类 似 于 内 置 的 range 函数 ， 可 以 在 
给 定 范围 内 返回 一 个 随机 数 。 只 使 用 randrange 函数 ， 实 现 自 己 的 choice AR. 


编写 一 个 函数 的 伪 代 码 描述 ， 该 函数 用 来 逆 置 n 个 整数 的 列表 ， 使 这 些 数 以 相反 的 顺序 输出 ， 
并 将 该 方法 与 可 以 实现 相同 功能 的 Python 函数 进行 比较 。 

编写 一 个 Python 函数 ， 用 来 接收 一 个 整数 序列 ， 并 判断 该 序列 中 是 否 存在 一 对 乘积 是 奇数 的 
互 不 相同 的 数 。 

编写 一 个 Python 函数 ， 用 来 接收 一 个 数字 序列 ， 并 判断 是 否 所 有 数字 都 互相 不 同 ( 即 它们 是 
不 同 的 )。 

在 1.5.1 节 scale 函数 的 实现 中 ， 循 环 体内 执行 的 命令 data[j] *= factor。 我 们 已 经 说 过 这 个 数 
字 类 型 是 不 可 变 的 ， 操 作 符 *= 在 这 种 背景 下 使 用 是 创建 了 一 个 新 的 实例 (而 不 是 现 有 实例 的 
变化 )。 那 么 scale 函数 是 如 何 实现 改变 调用 者 发 送 的 实际 参数 呢 ? 

1.5.1 节 scale 函数 的 实现 如 下 。 它 能 正常 工作 吗 ? 请 给 出 原因 。 


def scale(data, factor): 
for val in data: 
val *= factor 


演示 如 何 使 用 Python 列表 解析 语法 来 产生 列表 [0, 2, 6, 12, 20, 30, 42, 56, 72, 90]. 

演示 如 何 使 用 Python 列表 解析 语法 在 不 输入 所 有 26 个 英文 字母 的 情况 下 产生 列表 ['a', b', 'c,…, 'Z']。 
Python 的 random 模块 包括 一 个 函数 shuffle(data)， 它 可 以 接收 一 个 元 素 的 列表 和 一 个 随机 的 
重新 排列 元 素 ， 以 使 每 个 可 能 的 序列 发 生 概率 相等 。random 模块 还 包括 一 个 更 基本 的 函数 
randint(a，b)， 它 可 以 返回 一 个 从 a 到 4b (包括 两 个 端点 ) 的 随机 整数 。 只 使 用 randint 函数 ， 
实现 自己 的 shuffle AR. 

编写 一 个 Python 程序 ， 反复 从 标准 输入 读 取 一 行 直到 抛 出 EOFError 异常 ， 然 后 以 相反 的 顺 
序 输出 这 些 行 (用 户 可 以 通过 键 按 Ctrl+D 结束 输入 )。 

编写 一 个 Python 程序 ， 用 来 接收 长 度 为 n 的 两 个 整 型 数组 a 和 4b 并 返回 数组 a 和 45 的 点 积 。 
也 就 是 返回 一 个 长 度 为 n WH c, B cli] = a[i] * bli], for i= 0, =, n- 1 

给 出 一 个 Python 代码 片段 的 例子 ， 编 写 一 个 索引 可 能 越界 的 元 素 列 表 。 如 果 索 引 越界 ， 程 序 
应 该 捕获 异常 结果 并 打印 以 下 错误 消息 : 

" Don't try buffer overflow attacks in Python! " 

编写 一 个 Python 函数 ， 计 算 所 给 字符 串 中 元 音字 母 的 个 数 。 

编写 一 个 Python 函数 ， 接 收 一 个 表示 一 个 句子 的 字符 串 s， 然 后 返回 该 字符 串 的 删除 了 所 有 
标点 符号 的 副本 。 例 如 ， 给 定 字符 串 "Let's try, Mike."， 这 个 函数 将 返回 "Lets try Mike". 


C-1.26 


C-1.27 


C-1.28 





编写 一 个 程序 ， 需 要 从 控制 台 输 入 3 个 整数 a、b、c， 并 确定 它们 是 否 可 以 在 一 个 正确 的 算术 
公式 (在 给 定 的 顺序 ) FRZ, 如 “a+b=c”“a=b-c” 或 “a*b=c”。 
在 1.8 节 中 ， 我们 对 于 计算 所 给 整数 的 因子 时 提供 了 3 种 不 同 的 生成 器 的 实现 方法 。1.8 AR 
尾 处 的 第 三 种 方法 是 最 有 效 的 ， 但 我 们 注意 到 ， 它 没有 按 递增 顺序 来 产生 因子 。 修 改 生成 器 ， 
使 得 其 按 递增 顺序 来 产生 因子 ， 同 时 保持 其 性 能 优势 。 
在 n 维 空间 定义 一 个 向 量 y= (vi, vo, v) 的 己 范 数 ， 如 下 所 示 : 

lv] = vi ER 
对 于 p=2 的 特殊 情况 ， 这 就 成 了 传统 的 欧 几 里 得 范 数 ， 表 示 向 量 的 长 度 。 例 如 ， 一 个 二 维 向 量 坐 
标 为 (4,3 ) 的 欧 几 里 得 范 数 为 V4 + 3? - V16 + 9 =V25 = 5. 编写 norm PARK, Bll norm(v, p)， 返 
回 向 量 > 的 p 范 数 的 值 ，norm(v)， 返 回 向 量 v 的 欧 几 里 得 范 数 。 你 可 以 假定 "是 一 个 数字 列表 。 





项 目 

P-1.29 ”编写 一 个 Python 程序 ， 输 出 由 字母 'c', 'a', t', 'd', '0', 'g' 组 成 的 所 有 可 能 的 字符 串 ( 每 个 字母 只 
使 用 1 次 )。 

P-1.30 ”编写 一 个 Python 程序 ， 输 入 一 个 大 于 2 的 正 整 数 ， 求 将 该 数 反复 被 2 整除 直到 商 小 于 2 为 止 
的 次 数 。 

P-1.31 编写 一 个 可 以 “ 找 零钱 ”的 Python 程序 。 程 序 应 该 将 两 个 数字 作为 输入 ， 一 个 是 需要 支付 的 
钱 数 ， 另 一 个 是 你 给 的 钱 数 。 当 你 需要 支付 的 和 所 给 的 钱 数 不 同时 ， 它 应 该 返回 所 找 的 纸币 
和 硬币 的 数量 。 纸 币 和 硬币 的 值 可 以 基于 之 前 或 现任 政府 的 货币 体系 。 试 设计 程序 ， 以 便 返 
回 尽 可 能 少 的 纸币 和 硬币 。 

P-1.32 ”编写 一 个 Python 程序 来 模拟 一 个 简单 的 计算 器 ， 使 用 控制 台 作 为 输入 和 输出 的 专用 设备 。 也 
就 是 说 ， 计 算 器 的 每 一 次 输入 做 一 个 单独 的 行 ， 它 可 以 输入 一 个 数字 (如 1034 或 12.34 ) 或 操 
作 符 (如 + 或 =)。 每 一 次 输入 后 ， 应 该 输出 计算 器 显示 的 结果 并 将 其 输出 到 Python 控制 台 。 

P-1.33 ”编写 一 个 Python 程序 来 模拟 一 个 手持 计算 器 ， 程 序 应 该 可 以 处 理 来 自 Python 控制 台 (表示 
push 按钮 ) 的 输入 ， 每 个 操作 执行 完毕 后 将 内 容 输出 到 屏幕 。 计 算 器 至 少 应 该 能 够 处 理 基本 
的 算术 运算 和 复位 / 清除 操作 。 

P-1.34 ”一 种 惩罚 学 生 的 常见 方法 是 让 他 们 将 一 个 句子 写 很 多 次 。 编 写 独立 的 Python 程序 ， 将 以 下 句 
F "I will never spam my friends again.” 写 100 次 。 程 序 应 该 对 每 个 句子 进行 计数 ， 另 外 ， 
应 该 有 8 次 不 同 的 随机 输入 错误 。 

P-1.35 生日 悖 论 是 说 ， 当 房间 中 人 数 n 超过 23 时 ， 那 么 该 房间 里 有 两 个 人 生日 相同 的 可 能 性 是 一 半 
以 上 。 这 其 实 不 是 一 个 悖 论 ， 但 许多 人 觉得 不 可 思议 。 设 计 一 个 Python 程序 ， 可 以 通过 一 系 
列 随机 生成 的 生日 的 实验 来 测试 这 个 悖 论 ， 例 如 可 以 n= 5, 10, 15, 20, =, 100 测试 这 个 悖 论 。 

P-1.36 ”编写 一 个 Python 程序 ， 输 入 一 个 由 空格 分 隔 的 单词 列表 ， 并 输出 列表 中 的 每 个 单词 出 现 的 次 
数 。 在 这 一 点 上 ， 你 不 需要 担心 效率 ， 因 为 这 个 问题 会 在 这 本 书后 面 的 部 分 予以 解决 。 

扩展 阅读 


Python 的 官方 网 站 (http://www.python.org) 有 大 量 的 资料 ， 包 括 教程 和 内 置 函数 、 类 以 及 标准 模 
块 的 完整 文档 。Python 解释 器 本 身 是 一 个 有 用 的 参考 ， 为 交互 式 命令 帮助 (foo) 提供 了 一 切 函 数 、 类 
和 foo 标识 的 模块 的 文档 。 | 

对 Python 编程 提供 参考 的 书包 括 由 Campbell 等 °A, Cedar”! Dawson"! Goldwasser 和 Letscher?! , 
Lutz"? 撰写 的 书 ， 更 完整 的 Python 参考 书 有 Beazley03 和 Summerfield?” 撰写 的 书 。 
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面向 对 象 编程 





2.1 目标 、 原 则 和 模式 


顾名思义 ， 面 向 对 象 模式 中 的 主体 被 称 为 对 象 (object)。 每 个 对 象 都 是 类 (class) 的 实 
例 (instance)。 类 呈献 给 外 部 世界 的 是 该 类 实例 中 各 对 象 的 一 种 简洁 、 一 致 的 概括 ， 没 有 太 
多 不 必要 的 细节 ， 也 没有 提供 访问 类 内 部 工作 过 程 的 接口 。 类 的 定义 通常 详细 规定 了 对 象 包 
含 的 实例 变量 (instance variable)， 又 称 数据 成 员 (data member); 还 规定 了 对 象 可 以 执行 的 
方法 (methods), MAK A Ji dk. (member function )。 这 种 计算 理念 意 在 实现 几 个 设计 目标 和 
设计 原则 ， 这 就 是 我 们 在 这 章 将 要 讨论 的 内 容 。 


2.1.1 面向 对 象 的 设计 目标 

软件 的 实现 应 该 达到 健壮 性 (robustness)、 
适应 性 (adaptability) 和 可 重用 性 (reusability ) 
目标 ， 如 图 2-1 所 示 。 

健壮 性 

每 个 优秀 的 程序 设计 者 都 想 开发 正确 
的 软件 ， 这 就 是 说 在 应 用 程序 中 事先 考虑 到 pay N 
的 所 有 输入 都 会 产生 一 个 正确 的 输出 。 除 此 WD A 
之 外 ,我 们 希望 软件 变 得 更 健壮 ( robust)， 更 确切 地 说 ,希望 软件 能 处 理 我 们 在 应 用 程序 中 
没有 明确 定义 的 异常 输入 。 例 如 ， 如 果 一 个 程序 需要 正 整 数 (也 许 是 代表 一 件 商品 的 价格 )， 
然而 却 输 入 一 个 负 整 数 ， 那 么 这 个 程序 需要 “优雅 ”地 从 这 个 错误 中 恢复 。 更 重要 的 是 , 不 
健壮 的 软件 可 能 是 致命 的 ， 比 如 在 性 命 位 关 的 应 用 程序 Clife-critical application) 里 ， 软 件 
的 一 个 错误 可 能 会 导致 健康 受 损 甚至 霄 命 。 这 一 点 在 20 世纪 80 年 代 后 期 的 Therac-25 意外 
中 被 发 现 。1985 — 1987 年 间 ， 一 个 放射 医疗 机 器 给 6 名 患者 使 用 的 放射 严重 过 量 ， 其 中 有 
人 死 于 由 辐射 过 量 引 起 的 并 发 症 。 以 上 的 6 起 事故 都 是 软件 错误 导致 的 。 

适应 性 

现代 软件 应 用 程序 ， 比 如 网 页 浏览 右 和 互联 网 搜索 引擎 ， 通 常 包 含 使 用 了 多 年 的 大 型 程 
序 。 软 件 需 要 随 着 时 间 不 断 地 优化 ， 以 应 对 外 部 环境 中 条 件 的 改变 。 于 是 ， 高 质量 软件 的 另 
一 个 重要 目标 是 实现 适应 性 (adaptability) (又 称 可 进化 性 Cevolvability)) 。 这 个 概念 与 可 移 
植 性 (portability) 有 关 。 可 移植 性 是 指 软 件 以 最 少 的 改变 运行 在 不 同 的 硬件 和 操作 系统 平台 
Es H Python 编写 软件 的 一 个 好 处 是 语言 本 身 具 有 很 好 的 可 移植 性 。 

可 重用 性 

与 适应 性 相似 ,我们 希望 软件 也 是 可 重用 的 ， 更 确切 地 说 ， 同 样 的 代码 可 以 用 在 不 同系 
统 的 各 种 应 用 中 。 开 发 高 质量 软件 的 开销 可 能 很 昂贵 ， 如 果 能 把 软件 设计 成 高 度 可 重用 的 ， 
那么 就 会 减少 开发 软件 的 开销 。 但 是 ， 这 种 可 重用 性 应 该 谨慎 使 用 ， 在 Therac-25 意外 中 ， 
主要 的 软件 错误 之 一 就 来 源 于 对 Therac-20 软件 的 不 恰当 重用 (Therac-20 软件 不 是 面向 对 象 





可 重用 性 





的 ， 也 不 是 为 Therac-25 所 使 用 的 硬件 平台 设计 的 )。 


2.1.2 面向 对 和 象 的 设计 原则 


为 了 实现 上 述 目标 ， 面 向 对 象 方法 的 首要 原则 如 下 ( 见 图 2-2 ): 
。 模 块 化 

。 抽 象 化 

。 封 装 





图 2-2 面向 对 象 的 设计 原则 


模块 化 

现代 软件 系统 通常 包含 一 些 不 同 的 组 件 ， 为 了 使 整个 系统 正常 工作 ， 这 些 组 件 必须 正确 
地 合作 。 恰 当地 组 织 这 些 组 件 ， 才 能 保证 它们 合作 正常 。 模 块 化 指 的 是 一 种 组 织 原 则 ， 在 这 
个 原则 中 ， 不 同 的 组 件 归 为 不 同 的 功能 单元 。 

用 现实 世界 作 比 ， 一 座 房子 或 公寓 可 以 视 为 由 一 些 不 同 的 相互 作用 的 单元 组 成 ， 比 如 电 
力 系 统 、 加 热 系 统 、 冷 却 系统 、 水 暧 系统 和 建筑 结构 。 有 些 人 视 这 些 系 统 为 一 大 堆 杂 乱 的 电 
线 、 通 风口 、 管 道 和 板材 ， 组 织 架 构 师 则 不 然 ， 他 们 设计 房子 和 公寓 时 会 将 它们 视 为 单独 的 
模块 ， 让 这 些 模块 在 恰当 的 方式 下 相互 作用 。 这 样 ， 他 就 能 使 用 模块 化 的 思想 理 出 清晰 的 思 
路 。 这 种 思路 提供 了 一 个 从 组 织 功能 到 可 管理 单元 的 自然 方法 。 

同样 ， 在 软件 系统 中 采用 模块 化 还 可 以 为 实施 搭建 清晰 而 强大 的 组 织 框架 。 我 们 已 经 知 
道 ， 在 Python 中， 模块 (module) 是 一 个 源 代码 中 定义 的 密切 相关 的 函数 和 类 的 集合 。 比 
如 Python 标准 库 包括 math 模块 ， 该 模块 提供 了 关键 的 数学 常量 和 函数 的 定义 ， 还 包括 提供 
了 与 操作 系统 的 交互 支持 的 os 模块 。 

模块 化 的 使 用 还 有 助 于 支持 2.1.1 节 中 列 出 的 目标 。 在 形成 大 的 软件 系统 之 前 ,不同 的 
组 件 是 易于 测试 和 调试 的 。 此 外 ， 一 个 完整 系统 中 的 错误 可 能 会 追溯 到 相对 独立 的 特定 组 件 
中 。 因 此 ; 健壮 性 被 大 大 地 提高 。 模 块 化 结构 还 可 以 加 强 软 件 的 重用 性 。 如 果 软 件 模 块 用 通 
用 的 方式 来 写 ， 那么 当 上 下 文中 出 现 相关 需求 时 可 以 重用 模块 。 这 在 数据 结构 的 研究 中 是 特 
别 常见 的 ， 它 们 通常 被 定义 得 足够 抽象 ， 并 且 在 很 多 应 用 程序 中 被 重用 。 

抽象 化 

抽象 化 (abstraction) 是 指 从 一 个 复杂 的 系统 中 提炼 出 最 基础 的 部 分 。 通 常 ， 描 述 系 统 
的 各 个 部 分 涉及 给 这 些 部 分 命名 和 解释 它们 的 功能 。 将 抽象 模式 应 用 于 数据 结构 的 设计 便 产 
生 了 抽象 数据 类 型 ( Abstract Data Types, ADT). ADT 是 数据 结构 的 数学 模型 ， 它 规定 了 
数据 存储 的 类 型 、 支 持 的 操作 和 操作 参数 的 类 型 。ADT 定义 每 个 操作 要 做 什么 (what) 而 
不 是 怎么 做 (how)。 我 们 通常 参考 ADT 作为 其 公共 接口 (public interface) 所 支持 的 行为 的 
集合 。 
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Python 作为 一 种 编程 语言 ， 提 供 了 大 量 有 关 接 口 的 说 明 。Python (FH — PPR RA TF 
类 型 的 机 制 应 对 隐 式 抽象 类 型 。 作 为 一 种 解释 程序 和 动态 类 型 的 语言 ， 在 Python 中 没有 
“编译 时 ”检查 数据 类 型 ， 并 且 对 于 抽象 基 类 的 声明 没有 正式 的 要 求 。 相 反 ， 程 序 员 假 设 对 
象 支持 一 系列 已 知 的 行为 ， 如 果 这 些 假 设 不 成 立 ， 解 释 程序 将 出 现 一 个 运行 错误 。 “鸭子 类 
型 ”这 个 概念 来 源 于 诗人 James Whitcomb Riley 的 一 句 话 :“ 当 看 到 一 只 鸟 走 起 来 像 鸡 子 、 
游泳 起 来 像 鸭 子 、 叫 起 来 也 像 鸭 子 ， 那 么 这 只 乌 就 可 以 被 称 为 鸭子 。 

更 正式 地 说 ，Python 用 一 种 称 为 抽象 基 类 ( Abstract Base Class, ABC) 的 机 制 支持 抽 
象 数据 类 型 。 一 个 抽象 基 类 不 能 被 实例 化 (换言之 ， 你 不 能 直接 创建 该 类 的 实例 )， 但 它 规 
定 了 一 个 或 多 个 常用 的 方法 ， 抽 象 化 的 所 有 实现 都 必须 包括 该 方法 。 通 过 从 一 个 或 多 个 抽象 
类 中 继承 的 具体 类 (concrete classes) 来 实现 ABC， 同 时 提供 由 ABC 声明 这 些 方法 的 实现 。 
虽然 我 们 为 了 简单 起 见 而 忽略 这 些 声明 ， 但 Python 的 ABC 模块 为 ABC 提供 正式 的 支持 。 
我 们 将 用 到 一 些 现 有 的 来 自 Python 集合 模块 的 抽象 基 类 ， 其 中 包括 几 种 常用 数据 结构 ADT 
的 定义 和 其 中 一 些 抽 象 的 具体 实现 。 

封装 

面向 对 象 设计 的 另 一 个 重要 原则 是 封装 (encapsulation ) 。 软 件 系统 的 不 同 组 件 不 应 显示 
其 各 自 实现 的 内 部 细节 。 封 装 的 主要 优点 之 一 就 是 它 给 程序 员 实 现 组 件 细节 的 自由 ， 而 不 用 
关心 其 他 程序 员 写 的 其 他 依赖 于 这 些 内 部 代码 的 程序 。 程 序 设 计 者 对 于 组 件 的 唯一 约束 是 为 
这 些 组 件 保持 公共 接口 ， 其 他 程序 设计 者 将 会 编写 依赖 于 该 接口 的 代码 。 封 装 提供 了 健壮 性 
和 适应 性 ， 因 为 它 允 许 改 变 程序 一 部 分 的 实现 细节 而 不 影响 其 他 部 分 ， 因 此 ， 修 复 漏 洞 或 者 
给 组 件 中 增加 相对 本 地 更 改 的 新 功能 就 变 得 更 容易 。 

在 这 本 书 中 ， 我 们 将 遵循 封装 的 原则 ， 说 明 数 据 结构 的 哪些 方面 被 认定 为 公共 部 分 ， 哪 
些 方面 被 认定 为 内 部 细节 。 也 就 是 说 ，Python 为 封装 提供 了 宽泛 的 支持 。 按 照 惯例 ， 以 单 下 
划 线 开头 的 类 成 员 (数据 成 员 和 成 员 函 数 ) 的 名 称 (如 ，_secret) 被 认定 为 非 公 开 的 ， 而 且 
不 应 该 被 依赖 。 根 据 这 些 约 定 ， 自 动 生成 文档 时 会 忽略 这 些 内 部 成 员 。 


2.1.8. 设计 模式 


面向 对 象 的 设计 有 助 于 实现 健壮 的 、 可 适应 的 、 可 重用 的 软件 。 然 而 ， 设 计 好 的 代码 不 
仅 需 要 简单 地 理解 面向 对 象 的 方法 ， 更 需要 有 效 地 利用 面向 对 象 的 设计 技术 。 

为 了 设计 高 质量 的 、 简 洁 的 、 正 确 的 、 可 重用 的 面向 对 象 软件 ， 计 算 研 究 人 员 和 从 业 人 
员 已 经 开发 出 多 种 组 织 的 概念 和 方法 。 本 书 特别 关注 的 是 设计 模式 〈design pattern) 的 概念 ， 
它 描述 了 “典型 ”软件 设计 问题 的 解决 方案 。 一 种 可 以 应 用 于 不 同情 况 的 解决 方案 提供 了 通 
用 模板 的 模式 。 它 通过 一 个 方式 描述 解决 方法 的 主要 元 素 ， 该 方式 是 抽象 的 而 且 可 以 专门 用 
于 所 面临 的 具体 问题 。 模 式 包 括 一 个 名 称 ( 它 标识 了 该 模式 )、 一 个 语 境 ( 它 描述 应 用 该 模式 
的 情况 )、 一 个 模板 ( 它 描述 如 何 应 用 该 模式 ) 以 及 一 个 结果 ( 它 描述 和 分 析 该 模式 会 产生 什 
么 结果 )。 

在 本 书 中 ,我们 介绍 一 些 设计 模式 ， 同 时 展示 它们 如 何 被 持续 地 应 用 于 数据 结构 和 算 
法 的 实现 。 这 些 设计 模式 被 分 为 两 组 一 一 解决 算法 设计 问题 的 模式 和 解决 软件 工程 问题 的 模 
式 。 所 讨论 的 算法 设计 模式 包括 以 下 内 容 : 

e 递归 (第 4 章 ) 

e 挫 销 (5.3 节 和 11.4 节 ) 





e 分 治 法 (12.2.1 节 ) 

e 去 除法 ， 又 称 减 治 法 (12.7.1 节 ) 

e 暴力 算法 (13.2.1 节 ) 

e 动态 规划 (13.3 节 ) 

e 贪心 法 (13.4.2 55, 14.6.2 和 14.7 15) 

所 讨论 的 软件 工程 模式 包括 以 下 内 容 : 

e 迭代 器 (1.8 节 和 2.3.4 节 ) 

e 适配器 ( 6.1.2 节 ) 

e 位 置 (7.4 节 和 8.1.2 节 ) 

e 合成 (7.6.1 节 、9.2.1 节 和 10.1.4 45) 

e 模板 方法 (2.4.3 节 、8.4.6 节 、10.1.3 5, 10.5.2 WA 11.2 节 ) 

e 定位 器 (9.5.1 节 ) 

e 工厂 模式 (11.2.1 节 ) 

然而 ， 与 其 在 这 里 解释 每 种 设计 模式 的 概念 ， 不 如 通过 不 同 的 章节 来 介绍 它们 。 对 于 每 
种 模式 ， 不 论 是 用 于 设计 算法 还 是 软件 工程 ， 我 们 都 会 解释 其 一 般 用 法 ， 并 且 至 少 给 出 一 个 
具体 的 例子 来 进行 说 明 。 


22 软件 开发 


传统 的 软件 开发 包括 几 个 阶段 。 其 中 3 个 主要 阶段 如 下 : 

1 ) 设计 。 

2 ) 实现 。 

3 ) 测试 和 调试 。 

在 本 节 中 ， 我 们 将 简要 讨论 这 些 阶 段 所 扮演 的 角色 ， 介 绍 在 利用 Python 编程 时 一 些 好 
的 做 法 ， 包 括 编码 风格 、 命 名 约定 、 文 档 和 单元 测试 。 


2.2.14 设计 


对 于 面向 对 象 编程 ， 设 计 步 又 也 许 是 软件 开发 过 程 中 最 重要 的 阶段 。 因 为 在 决定 如 何 把 
程序 的 工作 分 成 若干 个 的 设计 步骤 中 ， 我 们 决定 这 些 类 的 交互 方式 、 将 要 存储 的 数据 和 将 要 
执行 的 功能 。 事 实 上 ， 程 序 设计 者 刚 开 始 面临 的 主要 的 挑战 之 一 是 决定 用 什么 类 去 实现 程序 
的 功能 。 虽 然 一 般 的 计划 都 很 难 总 结 ， 但 这 里 有 一 些 我 们 可 以 应 用 的 经 验 规 则 ， 为 确定 如 何 
设计 类 提供 方便 。 

e 责任 (responsibility): 把 这 些 工作 分 为 不 同 的 角色 (actor)， 它 们 有 各 自 不 同 的 责任 。 

试 着 用 行为 动词 描述 责任 。 这 些 角 色 将 形成 程序 的 类 。 

e 独立 (independence): 在 尽 可 能 独立 于 其 他 类 的 前 提 下 规定 每 个 类 的 工作 。 细 分 各 个 
类 的 责任 ， 这样 每 个 类 在 程序 的 某 个 方面 上 就 有 自主 权 。 把 数据 作为 那些 需要 控制 
和 访问 这 些 数据 的 类 的 实例 变量 。 

e 行为 (behavior): 仔细 且 精 确 地 为 每 个 类 定义 行为 ， 这 样 与 它 进行 交互 的 其 他 类 可 以 
很 好 地 理解 这 个 由 类 执行 的 动作 结果 。 这 些 行 为 将 定义 该 类 执行 的 方法 ， 并 且 ， 类 
的 接口 (interface) 是 一 系列 类 的 行为 ， 因 为 这 些 类 构成 了 其 他 代码 与 类 中 对 象 交互 
的 方法 。 
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面向 对 象 程序 设计 的 关键 是 定义 类 和 它们 的 实例 变量 及 方法 。 随 着 时 间 的 推移 ， 一 个 好 
的 程序 设计 者 在 执行 这 些 任 务 时 自然 会 探寻 更 好 的 技巧 ， 就 好 像 是 经 验 在 教 他 去 注意 项 目 需 
要 的 模式 ， 该 模式 与 他 之 前 见 过 的 模式 相 匹 配 。 

CRC 卡 〈Class-Responsibility-Collaborator) 是 一 个 用 于 开发 初始 的 高 层次 设计 项 目的 
通用 工具 。CRC 卡 是 细 分 程序 所 需 工 作 的 简单 的 索引 卡 。 该 工具 的 主要 思路 是 每 个 卡 代 表 
一 个 组 件 ， 该 组 件 最 终 将 成 为 程序 的 类 。 我 们 把 每 个 组 件 的 名 字 写 在 索引 卡 的 项 部。 把 组 件 
的 责任 写 在 卡 的 左边 ， 在 卡 的 右边 列 出 组 件 的 合作 者 ， 即 该 组 件 将 与 之 交互 完成 责任 的 其 他 
组 件 。 

设计 过 程 通过 行为 / 角色 周期 反复 迭代 ， 我 们 首先 确定 一 个 行为 ( 即 责任 )， 接 着 决定 一 
个 最 适合 执行 该 行为 的 角色 ( 即 组 件 )。 在 这 个 过 程 中 ,使 用 索引 卡 (而 不 是 更 大 的 纸 )， 我 
们 的 依据 是 每 个 组 件 应 该 有 一 个 小 的 责任 和 合作 者 集合 。 强 制 遵循 这 个 规则 有 助 于 保持 单个 
类 易于 管理 。 

作为 设计 采取 的 形式 ,解释 和 记录 设计 的 标准 方法 是 使 用 UML (Unified Modeling 
Language) 图 来 表达 程序 的 组 织 。UML 图 是 一 个 表达 面向 对 象 软件 设计 的 标准 视觉 记号 。 
一 些 计算 机 辅助 工具 可 以 构建 UML 图 。 类 图 (class diagram) 就 是 一 种 UML 图 。 图 2-3 给 
出 了 这 样 一 个 代表 消费 信用 卡 类 的 图 的 例子 。 图 包括 三 部 分 内 容 ， 第 一 部 分 指明 类 的 名 字 ， 
第 二 部 分 指明 推荐 的 实例 变量 ， 第 三 部 分 指明 类 的 方法 。 在 2.2.3 节 中 ,我 们 将 讨论 命名 规 
则 。 在 第 2.3.1 节 中 ， 我 们 将 提供 一 个 完整 的 以 该 设计 为 依据 的 Python CreditCard 类 的 实现 
方法 = 














类 : 信用 卡 

Sak: _customer _balance 
_bank _limit 
account 

行为 : get_customer() get_balance() 
get_bank() get limit() 
get account() charge(price) 
make payment(amount) 








图 2-3 ”推荐 的 CreditCard 类 的 类 图 


2.2.2 ØRE 


作为 在 设计 实现 前 的 中 间 步 又 ， 通 常 要 求 程 序 设计 者 通过 一 种 专门 为 人 准备 的 方法 来 描 
述 算法 。 这 种 描述 被 称 为 伪 代 码 ( pseudo-code)。 伪 代码 不 是 计算 机 程序 ， 但 是 比 平常 文章 
更 加 结构 化 。 伪 代码 是 自然 语言 和 高 级 编程 结构 的 混合 ， 用 于 描述 隐藏 在 数据 结构 和 算法 实 
现 之 后 的 主要 编程 思想 。 因 为 伪 代 码 是 为 读者 而 设计 的 ， 而 不 是 为 计算 机 设计 的 ， 因 此 我 们 
可 以 交流 复杂 的 思想 ， 而 不 用 担心 低层 具体 细节 的 实现 。 同 时 ， 我 们 不 应 该 注释 过 多 的 重要 
步骤 。 就 像 人 类 沟通 一 样 ， 寻 找 正 确 的 平衡 是 一 种 重要 技能 ， 这 些 技能 可 以 在 实践 中 积累 和 
强化 。 

在 本 书 中 ， 我 们 依靠 伪 代 码 样 式 ， 并 使 用 数学 符号 和 字母 注释 的 组 合 ， 使 得 对 于 
Python 程序 设计 者 来 说 该 伪 代 码 风 格 是 清晰 的 。 例 如 ， 我 们 也许 会 用 短语 “indicate an 
error ”代替 正 式 的 语句 。 遵 循 Python 的 惯例 ， 我 们 依靠 缩 进 来 表示 控制 结构 的 程度 ， 依 靠 





从 A[0] 到 4[n — 1] 的 索引 符号 给 长 度 为 n 的 序列 4 编号。 不过， 在 伪 代 码 中 ， 我 们 选择 把 
注释 放 入 大 括号 { } 中 ， 而 不 是 用 Python 中 的 # 字符 。 


2.2.9 


编码 风格 和 文档 


程序 应 该 被 设计 得 易于 阅读 和 理解 。 因 此 ， 好 的 程序 设计 者 应 该 注意 自己 的 编码 风格 ， 
并 且 形 成 一 种 无 论 是 对 人 还 是 计算 机 的 交流 都 有 好 处 的 风格 。 编 码 风格 的 惯例 在 不 同 编程 团 
体 中 是 不 同 的 。 在 网 站 http:Wwww.python.org/dev/peps/pep-0008/ 中 可 得 到 官方 的 Python 代 
码 风 格 指南 (Style Guide for Python Code), 

我 们 采取 的 主要 原则 如 下 : 


Python 代码 块 通常 缩 进 4 个 空格 。 但 是 ， 为 了 避免 代码 段 超过 本 书 的 边界 ， 我 们 以 2 

个 空格 作为 每 一 级 的 缩 进 。 因 为 不 同系 统 中 以 不 同 的 宽度 显示 制 表 符 ， 而 且 Python 

解释 器 视 制 表 符 和 空格 是 不 同 的 字符 ， 所 以 强烈 建议 避免 使 用 制 表 符 。 许 多 能 识别 

Python 语言 的 编辑 器 会 自动 用 适量 的 空格 代替 制 表 符 。 

标识 符 命 名 要 有 意义 。 试 着 选择 大 家 易于 理解 名 字 ， 选 择 能 反映 行为 、 责 任 或 其 命 

名 的 数据 的 名 字 。 

m 类 (不 同 于 Python 的 内 置 类 ) 应 该 以 首 字 母 大 写 的 单数 名 词 (例如 ，Date 而 不 是 

date 或 Dates) 作为 名 字 。 当 多 个 单词 连接 起 来 形成 一 个 类 的 名 字 时 ， 它 们 应 该 遵 

循 所 谓 的 “骆驼 拼写 法 ”规则 。 即 在 该 规则 中 ， 每 个 单词 的 首 字母 要 大 写 〈 例 如 ， 

CreditCard ) 。 

函数 ， 包 括 类 的 成 员 函 数 ， 应 该 小 写 。 如 果 将 多 个 单词 组 合 起 来 ,它们 就 应 该 用 

下 划 线 隔 开 (例如 ，make payment)。 函 数 的 名 字 通 常 应 该 是 一 个 描述 它 的 作用 的 

动词 。 但 是 ， 如 果 这 个 函数 的 唯一 目的 是 返回 一 个 值 ， 那 么 函数 名 可 以 是 一 个 描 

述 返 回 值 的 名 词 (例如 ，sqrt 而 不 是 calculate_sqrt) o 

m 标识 某 个 对 象 ( 例 如， 参数 、 实 例 变 量 或 本 地 变量 ) 的 名 字 应 该 是 一 个 小 写 的 名 词 
(例如 ，price)。 有 了 时候 ， 当 我 们 使 用 一 个 大 写字 母 来 表示 一 个 数据 结构 的 名 称 时 ， 
会 不 遵守 这 条 规则 (如 tree T), 

m 传统 上 用 大 写字 母 并 用 下 划 线 隔 开 每 个 单词 的 标识 符 代 表 一 个 常量 值 ( 例 如 ， 
MAX SIZE), 





回顾 我 们 讨论 的 封装 ， 在 任何 情况 下 ， 以 单 下 划 线 开头 的 标识 符 〈 例 如 ，_secret) 意 在 
表明 它们 只 为 类 或 模块 “内 部 ”使 用 ， 而 不 是 公共 接口 的 一 部 分 。 


用 注释 给 程序 添加 说 明 ， 解 释 有 上 靶 义 或 令 人 困惑 的 结构 。 内 和 骸 的 行 注 释 有 助 于 快速 
理解 代码 有 好 处 。 在 Python 中 ，# 字符 后 的 内 容 表 示 注 释 ， 如 : 

if n 95 2 2— 1: # n is odd 

多 行 注 释 块 可 以 很 好 地 解释 更 复杂 的 代码 段 。 在 Python 中 ， 有 专门 的 多 行 字 符 串 ， 


通常 用 三 引号 (""") 表示 ， 这 种 注释 对 程序 执行 没有 任何 影响 。 在 下 一 节 中 ,我们 将 
讨论 使 用 块 注释 作为 文档 。 


文档 
Python 使 用 一 个 称 作 docstring 的 机 制 为 在 源码 中 直接 插入 文档 提供 完整 的 支持 。 从 形 
式 上 讲 ， 任 何 出 现在 模块 、 类 、 函 数 (包括 类 的 成 员 函 数 ) 主体 中 的 第 一 个 语句 的 字符 串 都 
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被 认为 是 docstring。 按 照 惯例 ， 这 些 字符 串 应 该 限定 在 三 引号 (""") 中 。 例 如 ，1.5.1 1589 
缩放 功能 的 版 本 可 以 有 如 下 记录 : 


def scale(data, factor): 
""" Multiply all entries of numeric data list by the given factor." "" 
for j in range(len(data)): 
data[j] += factor 
对 于 docstring， 通 常用 三 引号 字符 串 分 隔 符 ， 即 使 像 上 面 例子 中 的 字符 串 仅 有 117. 
更 详细 的 docstring 应 该 以 概述 目的 一 行 开头 ， 接 下 来 是 一 个 空白 行 ， 然 后 是 进一步 的 细节 
描述 。 例 如 ， 我 们 可 以 用 如 下 方式 更 清楚 地 记录 函数 scale 的 信息 : 


def scale(data, factor): 
"Multiply all entries of numeric data list by the given factor. 


data an instance of any mutable sequence type (such as a list) 
containing numeric elements 


factor a number that serves as the multiplicative factor for scaling 


for j in range(len(data)): 
data[j] += factor 
docstring 作为 模块 、 功 能 或 者 类 的 声明 的 一 个 域 进行 存储 。 它 可 以 作文 档 用 ， 并 且 可 
以 用 多 种 方式 检索 。 例 如 ， 在 Python 解释 器 中 ， 用 命令 help(x) 会 生成 与 标识 对 象 x 关联 的 
文档 docstring。 还 有 一 个 名 叫 pydoc 的 外 部 工具 ， 该 工具 是 Python 发 行 的 ， 可 以 用 于 生成 
文本 或 网 页 格式 的 正式 文档 。 可 在 网 站 http://www.python.org/dev/peps/pep-0257/ 中 得 到 有 
用 的 docstring 书写 指南 。 
在 本 书 中 ， 我们 将 在 篇 幅 允 许 的 情况 下 加 上 docstring。 省 略 的 docstring 可 以 在 网 络 版 
的 源 代码 中 找到 。 


2.2.4 测试 和 调试 


测试 是 通过 实验 检验 程序 正确 性 的 过 程 ， 调 试 是 跟踪 程序 的 执行 并 在 其 中 发 现 错误 的 过 
程 。 在 程序 开发 中 ， 测 试 和 调试 通常 是 最 耗 时 的 一 项 活动 。 

测试 

详细 的 测试 计划 是 编写 程序 最 重要 的 部 分 。 用 所 有 可 能 的 输入 检验 程序 的 正确 性 通常 是 
不 可 行 的 ， 所 以 我 们 应 该 用 有 代表 性 的 输入 子 集 来 运行 程序 。 最 起 码 我 们 应 该 确保 类 的 每 个 
方法 都 至 少 被 执行 一 次 (方法 覆盖 )。 更 好 的 是 ， 程 序 中 的 每 个 代码 语句 应 该 至 少 被 执行 一 
次 (语句 覆盖 )。 

在 特殊 情况 (special cases) 的 输入 下 ， 程序 往往 会 失败 。 需 要 仔细 确认 和 测试 这 些 情 
况 。 例 如 ， 当 测试 一 个 对 整数 序列 排序 的 方法 (Bl sort) Bp, 我们 应 该 考虑 以 下 的 输入 : 

e 序列 具有 零 长 度 (没有 元 素 )。 

e 序列 有 一 个 元 素 。 

e 序列 中 的 所 有 元 素 是 相同 的 。 

e 序列 已 排序 。 

e 序列 已 反 向 排序 。 

除了 对 于 程序 而 言 特殊 的 输入 以 外 ， 我 们 也 应 该 考虑 使 用 该 程序 结构 的 特殊 情况 。 例 
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如 ， 如 果 用 一 个 Python 列表 存储 数据 ， 我 们 应 该 确保 诸如 添加 或 删除 列表 的 开头 或 未 尾 的 
边界 情况 都 可 以 正确 处 理 。 

手工 测试 是 必 不 可 少 的 ， 用 大 量 随机 生成 的 输入 测试 也 是 有 优势 的 。Python 中 的 随机 
模块 为 生成 随机 数 或 随机 集合 的 顺序 提供 了 几 种 方法 。 

程序 类 和 函数 之 间 的 依赖 关系 形成 层次 结构 。 也 就 是 说 ， 在 层次 结构 中 ， 如 果 组 件 4 
依赖 于 组 件 B， 比 如 函数 4 调用 函数 ,或 者 函数 4 依赖 于 一 个 参数 ， 该 参数 是 类 8B 中 的 实 
例 ， 就 称 组 件 A 高 于 组 件 B。 这 里 有 两 种 主要 的 测试 策略 ， 自 顶 向 下 (top-down) 和 自 底 向 
上 (bottom-up)， 它 们 的 不 同 之 处 在 于 测试 组 件 的 顺序 不 同 。 

自 上 而 下 的 测试 从 层次 结构 的 顶部 向 底部 进行 。 它 通常 用 于 连接 存根 (stubbing)， 一 种 
用 桩 函数 (stub) 代替 了 底层 组 件 的 启动 技术 ， 桩 函数 是 一 种 模拟 原 函 数组 件 的 替换 技术 。 
例如 ， 如 果 函 数 4 调用 函数 B 获取 文 件 的 第 一 行 ， 当 测试 4 时 ,我 们 可 以 用 返回 固定 字符 
串 的 桩 函数 代替 Bo 

自 下 而 上 的 测试 从 低级 组 件 向 更 高 级 组 件 进行 。 例 如 ， 首 先 测 试 不 调用 其 他 函数 的 底层 
函数 ， 其 次 测试 只 调用 底层 函数 的 函数 ， 等 等 。 相 似 的 ， 一 个 不 依赖 于 其 他 类 的 类 可 以 在 依 
赖 前 者 的 其 他 类 之 前 被 测试 。 常 将 这 种 测试 的 形式 称 为 单元 测试 (unit testing)， 在 大 型 软件 
项 目的 孤立 状态 下 测试 特定 组 件 的 功能 。 如 果 使 用 得 当 ， 这 种 策略 能 够 更 好 地 把 错误 的 起 因 
与 被 测试 的 组 件 隔 离开 来 ， 因 为 该 组 件 依赖 的 低级 组 件 已 经 被 充分 测试 过 了 。 

Python 为 自动 测试 提供 了 几 种 支持 形式 。 当 函数 或 类 定义 在 一 个 模块 中 时 ， 该 模块 的 
测试 可 以 被 嵌入 同一 个 文件 中 。1.11 节 中 描述 了 这 样 做 的 机 制 。 当 Python 直接 调用 该 模块 ， 
而 不 是 该 模块 用 作 大 型 软件 项 目的 输入 时 ， 在 形式 的 条 件 结构 中 被 屏蔽 的 代码 


if name. == '__main__': 
# perform tests... 


将 被 执行 。 在 这 样 一 个 结构 中 来 测试 该 模块 中 函数 的 功能 和 特别 规定 的 类 是 很 常见 的 。 

对 于 单元 测试 自动 化 ，Python 的 unittest 模块 提供 了 更 强大 的 支持 。 这 个 框架 允许 将 单 
个 测试 用 例 分 组 到 更 大 的 测试 套件 中 ， 并 为 执行 这 些 套件 提供 支持 ， 并 报告 或 分 析 测 试 结 
果 。 为 了 维护 软件 ， 使 用 回归 测试 ( regression testing)， 即 通过 对 所 有 先前 测试 的 重新 执行 
来 确保 对 软件 的 更 改 不 会 在 先前 测试 的 组 件 中 引入 新 的 错误 。 

调试 

最 简单 的 调试 技术 包括 使 用 打印 语句 (print statement) 来 跟踪 程序 执行 过 程 中 变量 的 
值 。 这 种 方法 的 一 个 问题 是 ， 最 终 需 要 删除 或 注释 掉 打 印 语句 ， 因 为 最 终 发 布 软件 时 不 能 执 
行 这 些 语句 。 

一 种 更 好 的 方法 是 用 调试 器 (debugger) 运行 程序 。 调 试 器 是 一 个 专门 用 于 控制 和 监视 
程序 执行 的 环境 。 调 试 器 提供 的 基本 功能 是 在 代码 中 插入 断 点 (breakpoint)。 当 在 调试 器 中 
执行 时 ， 程 序 在 每 个 断 点 处 中 止 。 当 程序 中 止 时 ， 可 以 检查 变量 当前 的 值 。 

标准 的 Python 程序 包括 一 个 pdb 模块 ， 该 模块 直接 在 解释 器 中 提供 调试 支持 。Python 
的 大 多 数 集成 开发 环境 IDE， 比 如 IDLE， 用 图 形 用 户 界 面 提供 调试 环境 。 


23 ”类 定义 
类 是 面向 对 象 程序 设计 中 抽象 的 主要 方法 。 在 Python 中 ， 类 的 实例 代表 了 每 个 数据 块 。 
类 以 及 实现 它 的 所 有 实例 给 成 员 函 数 (也 称 方法 ( methods)) 提供 了 一 系列 的 行为 。 类 也 是 
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其 实例 的 蓝图 ， 每 个 实例 通过 属性 (attributes) (也 称 域 (field)、 实 例 变量 或 数据 成 员 ) 的 确 
定 状态 信息 。 


2.3.1 例子 : CreditCard 类 


作为 第 一 个 例子 ， 我 们 提供 了 一 个 基于 图 2-3 和 2.2.1 节 中 介绍 的 设计 CreditCard 类 的 
实现 方法 。CreditCard 类 定义 的 实例 为 传统 的 信用 卡 提 供 了 一 个 简单 的 模型 。 实 例 已 经 确定 
了 关于 客户 、 银 行 、 账 户 、 信 用 额度 和 余额 信息 。 该 类 会 根据 消费 额度 限制 支付 ， 但 不 收取 
利息 或 滞纳金 (我 们 将 在 2.4.1 节 中 再 讨论 这 个 主题 )。 

我 们 的 代码 开始 于 代码 段 2-1， 并 在 代码 段 2-2 中 继续 。 结 构 以 关键 词 class 开始 ， 接 
着 是 类 的 名 字 和 一 个 冒号 ， 然 后 是 一 块 作为 类 主体 的 缩 进 代 码 。 主 体 包括 所 有 类 的 方法 的 定 
X. 用 1.5 节 中 介绍 的 技术 把 这 些 方法 定义 为 函数 ， 并 用 到 一 个 名 为 self 的 特殊 参数 ， 该 参 
数 用 来 识别 调用 成 员 的 特定 实例 。 

self 标识 符 

在 Python 中 ，self 标 识 符 扮演 了 一 个 重要 的 角色 。 在 CreditCard 类 的 语 境 下 ， 可 以 有 
很 多 不 同 的 信用 卡 实例 ， 而 且 每 个 都 必须 保持 自己 的 余额 、 信 用 额度 等 。 因 此 ， 每 个 实例 都 
存储 自己 的 实例 变量 ， 以 反映 其 当前 状态 。 

在 语句 构成 上 ，self 确 定 了 调用 方法 的 实例 。 例 如 ， 假 设 类 的 用 户 有 一 个 变量 my 
card， 它 就 确定 了 CreditCard 类 的 一 个 实例 。 当 用 户 调 用 my. card.get balance() HY, self 标 
识 符 用 get balance 方法 引用 被 调用 者 名 为 my_card AY. self. balance 表达 式 引 用 一 个 名 为 
_balance 的 实例 变量 ， 存 储 为 特定 信用 卡 状态 的 一 部 分 。 


代码 段 2-1 CreditCard 类 定义 的 开始 部 分 (下 接 代码 段 2-2 ) 


class CreditCard: 
""" A consumer credit card." "" 


l 

2 

3 

4 def . init. (self, customer, bank, acnt, limit): 
5 """ Create a new credit card instance. 

6 


7 The initial balance is zero. 

8 

9 customer the name of the customer (e.g., ‘John Bowman!) 
10 bank the name of the bank (e.g., 'California Savings!) 
11 acnt the acount identifier (e.g., 15391 0375 9387 5309') 
12 limit credit limit (measured in dollars) 

13 iio 

14 self. customer = customer 

15 self. bank — bank 

16 self. account — acnt 

17 self. limit — limit 

18 self. balance — 0 


20 def get. customer(self): 


21 """ Return name of the customer." "" 
22 return self. customer 

23 

24 def get bank(self): 

25 """Return the bank's name." "" 

26 return self. bank 

27 


28 def get account(self): 
29 """ Return the card identifying number (typically stored as a string). " " 
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30 return self. account 


32 def get. limit(self): 


33 """ Return current credit limit." "" 
34 return self. limit 

35 

36 def get balance(self): 

37 """ Return current balance." "" 

38 return self. balance 


代码 段 2-2 CreditCard 类 定义 的 结尾 ( 接 代码 段 2-1 )。 方 法 在 类 定义 中 都 是 缩 简 的 


39 def charge(self, price): 


40 """ Charge given price to the card, assuming sufficient credit limit 
41 

42 Return True if charge was processed; False if charge was denied 

43 UE 

44 if price 十 self. balance > self. limit: # if charge would exceed limit, 
45 return False # cannot accept charge 
46 else: 

47 self. balance += price 

48 return True 

49 

50 def make. payment(self, amount): 

51 """ Process customer payment that reduces balance." "" 

52 self. balance —— amount 


我 们 可 以 看 到 调用 者 使 用 方法 签名 与 类 内 部 定义 声明 使 用 方法 签名 之 间 的 差异 。 例 如 ， 从 
用 户 的 角度 来 看 ， 我 们 知道 get_balance 方法 不 带 参数 ， 但 在 类 定义 中 ，self 是 一 个 明确 的 参数 。 
同样 ， 在 类 中 声明 charge 方法 有 两 个 参数 ( self 和 price)， 但 是 这 个 方法 调用 时 只 使 用 一 个 参数 ， 
例如 my_card.charge(200)。 解 释 器 在 调用 这 些 函 数 时 自动 将 调用 对 应 函数 的 实例 绑 定 为 self 参数 。 
用 户 可 以 用 类 似 于 下 面 的 语法 创建 CreditCard 类 的 实例 


cc = CreditCard('John Doe, '1st Bank', '5391 0375 9387 5309', 1000) 


其 中 ， 名 为 int 的 方法 是 类 的 构造 函数 ( constructor)。 它 最 主要 的 责任 是 用 适当 的 实例 变量 
建立 一 个 新 创建 的 CreditCard 类 对 象 。 就 CreditCard 类 来 说 ， 每 个 对 象 保 存 5 个 实例 变量 ,我 
们 将 其 命名 为 _customer、 bank、 account、 limit 和 balance, iX 5 个 变量 中 前 4 个 的 初始 值 
是 由 明确 的 参数 提供 的 ， 这 些 参数 是 在 实例 化 信用 卡 时 由 用 户 发 送 的 ， 并 在 构造 函数 的 主体 中 
给 这 些 参 数 赋值 。 比 如 ，self_customer = customer， 把 参数 customer 的 值 赋值 给 实例 变量 self. 
customer。 注 意 : 因为 等 号 右 侧 的 customer 没有 限定 ， 所 以 它 指 的 是 本 地 命名 空间 中 的 参数 。 

封装 

2.2.3 节 中 所 描述 的 惯例 ， 在 数据 成 员 名 称 中 的 前 加 下 划 线 ， 比 如 _balance， 表 明 它 被 
设计 为 非 公 有 的 (nonpublic)。 类 的 用 户 不 应 该 直接 访问 这 样 的 成 员 。 

通常 ， 我 们 将 所 有 数据 成 员 视 为 非 公 有 的 。 这 使 我 们 能 够 更 好 地 对 所 有 实例 执行 一 致 的 
状态 。 我 们 可 以 提供 类 似 于 get. balance 的 访问 函数 ， 以 提供 拥有 只 读 访问 特性 的 类 的 用 户 。 
如 果 希 望 允许 用 户 改 变 状态 ， 我 们 可 以 提供 适当 的 更 新 方法 。 在 数据 机 构 中 ， 封 装 内 部 表达 
的 方式 允许 我 们 更 加 灵活 地 设计 类 的 工作 方式 ， 这 或 许 能 提高 数据 结构 的 效率 。 

附加 方法 

我 们 的 类 中 最 有 趣 的 行为 是 收 款 和 付款 。 收 款 功 能 通常 会 在 信用 卡 余 额 中 增加 所 收费 
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用 ， 以 反映 顾客 提 到 的 购买 价格 。 然 而 ， 在 收取 费用 前 ， 我 们 的 实现 方法 要 验证 新 的 消费 不 
会 导致 余额 超过 信用 人 额度。 付款 费用 反映 了 客户 给 银行 支付 给 定 的 款项 ， 从 而 减少 信用 卡 中 
的 余额 。 我 们 注意 到 ， 在 self. balance -= amount 命令 中 self. balance 的 语句 由 self 标 识 符 
做 了 限定 ， 因 为 它 代 表 了 卡 的 实例 变量 ， 而 没有 被 限定 的 amount 表示 局 部 参数 。 

错误 检查 

CreditCard 类 的 实现 方法 不 是 特别 健壮 。 首 先 ， 我 们 注意 到 对 于 收 款 和 付款 ,没有 
明确 地 检查 参数 的 类 型 ， 也 没有 给 构造 函数 任何 参数 。 如 果 用 户 创建 了 一 个 类 似 于 visa. 
charge('candy") 的 调用 ， 当 企图 在 余额 中 添加 参数 时 ， 代 码 可 能 会 月 演 。 如 果 这 个 类 广泛 
地 用 于 图 书馆 中 ， 在 面 对 这 样 的 滥用 ( 见 1.7 节 ) Bf, 我们 可 能 会 用 更 多 严谨 的 技术 来 抛 出 
TypeError 错误 。 

除了 明显 的 类 型 错误 ， 我 们 的 实现 方法 可 能 会 受到 逻辑 错误 的 影响 。 例 如 ， 如 果 人 允许 用 
户 收取 一 个 类 似 于 visa.charge(-300) 的 负 的 价格 ， 这 将 导致 用 户 的 余额 变 少 。 这 是 可 以 不 通 
过 支付 来 减少 余额 的 一 个 漏洞 。 当 然 ， 如 果 模 拟 信用 卡 收 到 顾客 给 商家 的 退货 时 ， 这 也 会 被 
视 为 合法 的 情况 。 我 们 将 在 本 章 末 的 练习 中 用 CreditCard 类 讨论 一 些 这 样 的 问题 。 

测试 类 

在 代码 段 2-3 中 ,我 们 演示 了 CreditCard 类 的 一 些 基 本 用 法 ， 在 wallet 列 中 插入 3 5K 
卡 。 我 们 循环 地 进行 收 款 和 付款 ， 并 使 用 各 种 访问 函数 将 结果 打印 到 控制 台 。 

这 些 测 试 封闭 在 ff name ==' main ': 条 件 中 ， 这 样 它们 可 以 通过 类 的 定义 嵌入 源 
代码 中 。 使 用 2.2.4 节 中 的 术语 ， 这 些 测 试 提 供 方法 覆盖 ， 每 个 方法 至 少 被 调用 一 次 ， 但 是 
这 些 测 试 不 提供 语句 覆盖 ， 因 为 有 信用 额度 ， 所 以 这 里 不 会 有 任何 一 种 情况 中 的 收 款 被 拒 
绝 。 这 种 测试 比较 落后 ， 必 须 手 动 地 审核 给 定 测试 的 输出 结果 ， 以 确定 是 否 该 类 表现 得 如 我 
们 所 预期 的 一 样 。Python 有 更 正式 的 测试 工具 ( 见 2.2.4 节 中 讨论 的 unittest 模块 )， 这 样 得 
到 的 值 可 以 与 预测 结果 自动 地 比较 ， 只 有 当 检测 到 错误 时 才 产 生 输 出 。 


代码 段 2-3 测试 CreditCard 类 
53 if ..name.. == '__main__': 
54  wallt = [] 
55  wallet.append(CreditCard(' John Bowman', 'California Savings', 





56 '5391 0375 9387 5309', 2500) ) 

57 wallet.append(CreditCard(' John Bowman', 'California Federal', 
58 '8485 0399 3395 1954', 3500) ) 

59  wallet.append(CreditCard(' John Bowman', 'California Finance', 
60 '5391 0375 9387 5309', 5000) ) 

61 

62 for val in range(1, 17): 

63 wallet[0].charge(val) 

64 wallet[1].charge(2*val) 

65 wallet[2].charge(3*val) 

66 

67 forc in range(3): 

68 print('Customer -', wallet[c].get_customer( )) 

69 print( :Bank =', wallet[c].get_bank()) 

70 print('Account -', wallet[c].get_account( )) 

71 print('Limit -', wallet[c].get_limit()) 

72 print('Balance =", wallet[c].get_balance( )) 

73 while wallet[c].get_balance( ) > 100: 

74 wallet[c].make. payment(100) 

75 print('New balance -', wallet[c].get_balance( )) 


76 print( ) 


2.3.2 ”运算 符 重 载 和 Python 的 特殊 方法 


Python 的 内 置 类 为 许多 操作 提供 了 自然 的 语义 。 比 如 ，a + b 语句 可 以 调用 数值 类 型 语 
句 ， 也 可 以 连接 序列 类 型 。 当 定义 一 个 新 类 时 ， 我 们 必须 考虑 到 当 a 或 者 b 是 类 中 的 实例 时 
是 否 应 该 定义 类 似 于 a +b 的 语句 。 

默认 情况 下 ， 对 于 新 的 类 来 说 ,“+” 操 作 符 是 未 定义 的 。 然 而 ， 类 的 作者 可 通过 操作 
ER (operator overloading) 技术 来 定义 它 。 这 个 定义 可 通过 一 个 特殊 的 命名 方法 来 实现 。 
特别 的 是 ， 名 为 add _ 的 方法 重 载 + 操 作 符 ， add _ 用 右边 的 操作 作为 参数 并 返回 表达 
式 的 结果 。 也 就 是 说 ，a + b 语 句 ， 被 转换 为 一 个 调用 a. add _(b) 对 象 的 方法 。 类 似 的 特 
殊 命名 的 方法 存在 其 他 操作 符 中 。 表 2-1 提供 了 与 这 一 方法 类 似 的 完整 列表 。 


表 2-1 用 Python 特殊 方法 实现 的 重 载 操 作 


常见 的 语法 特别 方法 的 形式 
a+b a. add (b); 或 者 b. radd (a) 
a-b a. sub (b) 或 者 b. rsub (a) 
a*b a.__mul__(b); 或 者 b. rmul (a) 
a/b a. truediv (b); 或 者 b. rtruediv (a) 
a // b a. floordiv (b); mi b. rfloordiv (a) 
a 96 b a. mod (b) 或 者 b. rmod (a) 
a**b a. pow (b) 或 者 b. rpow (a) 
a<<b a. lshift (b); 或 者 b. rishift (a) 
a>>b a. rshift (b); 或 者 b. rrshift (a) 
a&b a. and (b); 或 者 b. rand (a) 
a^b a. xor (b) 或 者 b. rxor (a) 
a|b a. or (b) 或 者 b. ror (a) 
at=b a. iadd (b) 
a-- a. isub (b) 
a*=b a. imul (b) 
+a a.__pos__(b) 
-a a. neg (b) 
~a a. invert (b) 
abs(a) a. abs (b) 
a<b a. lt (b) 
a<=b a. le (b) 
a>b a. gt (b) 
a>=b a. ge (b) 
a--b a. eq (b) 
al-b a. ne (b) 
vina a. contains (v) 
a[k] a. getitem  (k) 
a[k]-v a. setitem  (k, v) 
dela[k] a. delitem  (k) 
a(argl, arg2, =) a. call (argl, arg2, ...) 


len(a) a. len () 
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(5 ) 
常见 的 语法 特别 方法 的 形式 

hash(a) a. hash () 

iter(a) a. iter () 

next(a) a. next () 

bool (a) a. bool () 

float (a) a. float () 

int (a) a. int () 

repr (a) a. repr () 

reversed (a) a. reversed () 

str (a) a. str () 


像 3 *love me' 一 样 ， 当 一 个 二 元 操作 符 应 用 于 两 个 不 同类 型 的 实例 中 时 ，Python 对 根 
据 左 操作 数 的 类 进行 判断 。 在 这 个 例子 中 ， 对 于 使 用 _mnul _ 方法 把 字符 串 与 实例 相 乘 ， 
可 以 通过 检查 int 类 是 否 提供 了 相应 的 定义 。 然 而 ， 如 果 这 个 类 没有 实现 这 一 行为 ，Python 
就 会 以 一 种 名 为 ”rmul _(〈 即 “ 右 乘 ”) 的 特殊 方法 来 检查 右 操作 数 的 类 的 定义 。 该 方法 为 
新 用 户 定 义 的 类 提供 了 一 个 支持 包含 已 存在 类 (所 给 的 已 存在 的 类 可 能 没有 定义 引用 该 新 类 
的 行为 ) 的 实例 的 混合 操作 的 方法 。 mul 和 rmul _ 的 区 别 也 允许 类 根据 情况 定义 不 
同 的 语义 ， 如 操作 数 在 矩阵 乘法 中 就 是 不 可 交换 的 ( 即 A * x 可 能 与 x * A 不同 )。 

非 运算 符 重 载 

当 使 用 用 户 自 定义 的 类 时 ， 除 了 传统 的 操作 符 重 载 ，Python 依靠 特殊 的 命名 方法 来 控 
制 各 种 功能 的 行为 。 例 如 ，str(foo) 语句 ， 是 string 类 的 构造 函数 的 一 个 调用 。 如 果 参 数 是 
用 户 定义 的 类 的 实例 ，string 类 的 原作 者 当然 不 知道 应 该 如 何 根据 这 个 实例 构造 字符 串 。 所 
以 字符 串 构造 函数 调用 一 个 专门 的 命名 方法 ，foo. str _(0， 它 必须 返回 一 个 恰当 的 字符 串 
表示 形式 。 

类 似 的 方法 也 被 用 于 通过 一 个 用 户 自 定义 类 来 构造 int、float 或 bool 类 型 。 将 一 个 用 
户 自 定义 类 转换 为 一 个 Boolean 值 尤 为 重要 ， 因 为 即使 当 foo 不 是 一 个 Boolean 值 ( 见 1.4.1 
节 ) 时 也 可 以 使 用 if foo: 语句 。 对 于 用 户 自 定义 的 类 ， 用 专门 的 方法 foo. bool _() 返回 对 
应 的 真 值 。 

几 个 其 他 的 顶层 功能 依赖 于 调用 特殊 的 命名 方法 。 例 如 ， 调 用 顶层 的 len 函数 是 确定 一 
个 容器 类 型 大 小 的 标准 方法 。 注 意 : 调用 len(foo) 不 是 传统 的 用 点 运算 符 的 方法 调用 语法 。 
在 一 个 用 户 已 定义 的 类 的 情况 下 ， 顶 层 的 len 函数 依赖 于 调用 该 类 特别 的 命名 方法 len o 
也 就 是 说 ，len(foo) 的 返回 值 是 通过 调用 foo. len (0 得 到 的 。 当 作用 于 数据 结构 时 ， 我 们 
经 常 定义 len — 方法 来 返回 一 个 结构 的 大 小 。 

隐 式 的 方法 

作为 一 般 规则 ， 如 果 在 用 户 已 定义 的 类 中 没有 实现 特定 的 特殊 方法 ， 则 依赖 于 该 方法 的 
标准 语法 将 引发 异常 。 例 如 ， 用 户 自 定义 类 未 定义 add 或 者 _radd _ 方法， 则 计算 自 
定义 类 的 实例 相 加 的 语句 a +b 将 会 引发 异常 。 

然而 ， 当 缺乏 特殊 方法 时 ， 有 一 些 操作 符 已 经 由 Python 提供 了 默认 定义 ， 也 有 一 些 操 
作 符 的 定义 来 源 于 其 他 定义 。 例 如 ， 支 持 if foo: 语句 的 ”bool 方法 有 默认 语义 ， 以 至 于 
除了 None 以 外 的 每 个 对 象 的 值 都 为 True。 然 而 ， 对 于 容 右 类 型 ， 通常 定义 len _ 方法 返 








回 容 器 的 大 小 。 如 果 这 种 方式 存在 ， 对 于 长 度 不 为 0 的 实例 ，bool(foo) 的 值 默认 情况 下 为 
True， 对 于 长 度 为 0 的 实例 ， 值 默认 情况 下 为 False， 人 允许 用 类 似 于 if waitlist: 的 语句 测试 是 
和 否 在 等 待 队列 中 由 一 个 或 多 个 条 目 。 

在 2.3.4 节 中 ， 我 们 将 讨论 Python 通过 特殊 方法 _iter 为 集合 提供 迭代 需 的 机 
制 。 也 就 是 说 ， 如 果 一 个 容器 类 实现 了 _len 和 getitem 方法， 则 它 可 以 自动 提供 
一 个 默认 迭代 器 〈 用 我 们 在 2.3.4 节 中 讨论 的 方法 )。 此 外 ， 一 旦 定义 了 和 迭代 器 ， 就 提供 了 
. contains _ 的 默认 功能 。 

在 1.3 节 中 ,我 们 指出 了 表达 式 a is b 和 表达 式 a == b 之 间 的 区 别 ， 前 者 评估 标识 符 a 
和 b 是否 为 同一 对 象 的 别名 ， 后 者 测试 是 否 两 个 标识 符 引 用 等 价值 的 概念 。“ 等 价 ”的 概念 
依赖 于 类 的 上 下 文 ， 并 用 eq HR MAM. Am, WRAL eq DE, 语句 a 
==b 和 aisb 语义 是 等 价 的 ， 即 一 个 实例 只 和 其 自身 是 等 价 的 ， 和 其 他 实例 都 不 相等 。 

我 们 也 应 该 注意 到 ，Python 并 没有 自动 提供 一 些 我 们 认为 自然 而 然 的 表达 式 。 例 如 ， 
__eq _ 方法 支持 a == DIR, 但 该 方法 不 影响 a !=b 语 句 的 值 (该 值 通过 _ne  Zrikit 
JE, 通常 返回 not (a == b) 作为 结果 )。 同 样 ， 提供 ”lt _ 方法 支持 a <b 语句 ， 并且 间接 支 
持 b>a 语 句 ， 但 是 提供 的 _lt 和 eq 都 没有 a<=b 的 语义 。 


2.3.3 例子 : 多 维 向 量 类 


为 了 演示 通过 特殊 方法 使 用 运算 符 重 载 ， 我 们 给 出 一 个 Vector 类 的 实现 方法 ， 代 表 了 
一 个 多 维 空间 中 向 量 的 坐标 。 例 如 ， 在 三 维 空间 中 ， 也 许 我 们 希望 用 坐标 《5, - 2, 3 》 代 表 
一 个 向 量 。 虽 然 直接 使 用 Python 列表 代表 那些 坐标 可 能 更 有 吸引 力 ， 但 是 列表 不 能 为 几何 
问 量 提供 适当 的 抽象 。 特 殊 的 是 ， 如 果 使 用 列表 ， 表 达 式 [5, - 2, 3] + [1, 4, 2] 的 结果 是 [5, 
- 2,3, 1, 4, 2]。 当 用 向 量 工作 时 ,如果 w= (5,-2,3) 并 且 v= (1,4,2), 我 们 希望 用 表达 
式 u+v 来 返回 一 个 坐标 为 《6, 2, 5 三维 向 量 。 

因此 ， 我 们 在 代码 段 2-4 中 定义 一 个 Vector 类 ， 它 为 几何 向 量 的 概念 提供 了 一 个 更 好 的 
抽象 。 在 内 部 ， 我 们 的 向 量 依赖 列表 名 为 coords 的 实例 ， 作 为 它 的 存储 机 制 。 通 过 保持 内 
部 列表 的 封装 ， 我 们 可 以 为 类 中 的 实例 执行 所 请 求 的 公共 接口 。 示 例如 下 : 


v — Vector(5) # construct five-dimensional <0, 0, 0, 0, 0> 
v[1] = 23 # <0, 23, 0, 0, 0> (based on use of _setitem_) 
v[—1] = 45 # <0, 23, 0, 0, 45> (also via _-setitem__) 
print(v[4]) # print 45 (via —getitem__) 

u=viv # «0, 46, 0, 0, 90> (via add.) 

print(u) # print <0, 46, 0, 0, 90> 

total = 0 

for entry in v: # implicit iteration via len and .getitem - 


total += entry 


代码 段 2-4 ”一 个 简单 Vector 类 的 定义 


class Vector: 
""" Represent a vector in a multidimensional space." "" 


1 

2 

3 

4 def .init. (self, d): 

5 """ Create d-dimensional vector of zeros." "" 
6 self. .coords = [0] * d 
- 

8 

9 


def . len. (self): 
"""Return the dimension of the vector." "" 
0 return len(self. coords) 
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12 def __getitem __(self, j): 
13 """ Return jth coordinate of vector." "" 
14 return self._coords[j] 


l6 def __setitem__(self, j, val): 
17 """Set jth coordinate of vector to given value." "" 


18 self. coords[j] = val 


20 def ..add. (self, other): 


21 """ Return sum of two vectors." "" 

22 if len(self) !— len(other): # relies on _len__ method 
23 raise ValueError('dimensions must agree!) 

24 result — Vector(len(self)) # start with vector of zeros 
25 for j in range(len(self)): 

26 result[j] = self[j] + other[j] 

27 return result 

28 

29 def __eq__(self, other): 

30 """ Return True if vector has same coordinates as other." "" 

31 return self. coords == other._coords 

32 

33 def __ne__(self, other): 

34 """ Return True if vector differs from other." "" 

35 return not self —— other # rely on existing eq... definition 


37 def __str__(self): 
38 """ Produce string representation of vector." "" 
39 return '«' + str(self. coords)[1:—1] 十 '»' # adapt list representation 


很 多 接口 可 以 通过 调用 和 内 部 坐标 列表 类 似 的 方法 实现 。 然 而 ，__add__ 的 实现 方法 却 
不 同 。 假 设 两 个 操作 数 是 长 度 相同 的 向 量 ， 该 方法 创建 了 一 个 新 的 向 量 ， 并 将 新 向 量 的 坐标 
置 为 各 自 操 作 数 对 应 分 量 元 素 的 和 。 

请 注意 代码 段 2-4 中 该 方法 的 定义 很 有 趣 ， 该 定义 自动 支持 u= v + [5, 3, 10, - 2, 1] if 
法 ,并 产生 一 个 新 的 向 量 ， 该 向 量 的 各 个 元 素 是 第 一 个 向 量 和 列表 实例 对 应 位 置 元 素 之 和 。 
这 是 Python % A (polymorphism) 的 结果 。 从 字面 上 看 ,“ 多 态 ”的 意思 是 “许多 形式 ”。 
虽然 它 容易 使 我 们 想到 ”add 方法 中 的 other 参数 是 一 个 Vector 的 实例 ， 但 我 们 并 没 这 
样 声明 它 。 在 内 部 ， 我 们 依赖 于 参数 other 的 唯一 行为 是 它 支持 len(other) 并 且 可 以 访问 
other[j]。 因 此 ， 当 右边 的 操作 数 是 一 个 数字 (匹配 的 长 度 ) 列表 时 ， 代 码 依然 可 以 执行 。 


2.3.4 和 迭代 器 


在 数据 结构 的 设计 中 ， 和 迭代 器 是 一 个 重要 的 概念 。 在 1.8 节 中 ， 我 们 介绍 了 Python iX 
代 器 的 机 制 。 简 而 言 之 ,集合 的 迭代 器 (iterator) 提供 了 一 个 关键 行为 : 它 支持 一 个 名 为 
next _ 的 特殊 方法 ， 如 果 和 集合 有 下 一 个 元 素 ， 该 方法 返回 该 元 素 ， 否 则 产生 一 个 
StopIteration 异常 来 表明 没有 下 一 个 元 素 。 

幸运 的 是 ， 很 少 需要 直接 实现 迭代 器 类 。 我 们 的 首选 方法 是 使 用 生成 器 ( generator) 语 
法 (已 在 1.8 节 中 描述 了 )， 它 自动 地 产生 一 个 已 生成 值 的 迭代 器 。 

Python 也 为 实现 ”len _ 和 getitem _ 的 类 提供 了 一 个 自动 的 迭代 右 。 为 了 提供 一 个 
低级 迭代 器 的 例子 ， 代 码 段 2-5 演示 了 这 种 迭代 器 类 可 用 于 任何 支持 len 和 __getitem _ 
的 集合 的 处 理 。 该 类 可 被 实例 化 为 SequencelIterator(data)。 它 通过 保存 在 内 部 的 数据 序列 引 
用 来 操作 该 序列 以 及 当前 的 索引 。 每 次 调用 ”next 时， 索引 递增 ， 直 到 序列 结束 。 


代码 段 2-5 ”一 个 支持 任何 序列 类 型 的 迭代 器 类 


class Sequencelterator: 
""" An iterator for any of Python's sequence types." "" 


""" Create an iterator for the given sequence." ” 
self. seq — sequence # keep a reference to the underlying data 
7 self. k — —1 # will increment to 0 on first call to next 


l 
2 
3 
4 def init. (self, sequence): 
5 
6 


9 def __next __(self): 
10 """ Return the next element, or else raise Stoplteration error," "" 


1! self. k += 1 # advance to next index 

12 if self. k — len(self. seq): 

13 return(self. seq([self. .k]) # return the data element 

14 else: 

I5 raise Stoplteration( ) # there are no more elements 


17 def iter. (self): 
18 """ By convention, an iterator must return itself as an iterator.””” 
19 return self 


2.3.5 例子 : Range 类 


作为 本 节 中 的 最 后 一 个 例子 ， 我 们 实现 一 个 类 来 模拟 Python 的 内 置 range 类 。 在 介绍 这 
个 类 之 前 ， 我 们 先 讨论 内 置 版 本 的 历史 。 在 发 布 Python 3 之 前 ，range 作为 一 个 函数 来 实现 ， 
并 且 用 特定 范围 内 的 元 素 返 回 一 个 列表 实例 。 例 如 ，range(2, 10, 2) 返回 列表 [2, 4, 6, 8]。 然 
而 ,该 函数 的 典型 用 法 是 支持 类 似 于 for k in range(10000000) 的 循环 语法 。 不 幸 的 是 ， 这 会 
引起 一 个 数字 范围 列表 的 实例 化 和 初始 化 ， 在 时 间 和 内 存 的 使 用 上 都 造成 了 不 必要 的 浪费 。 

fr Python 3 中 ，range 的 机 制 是 完全 不 同 的 〈 公 平地 说 ， 这 种 “新 ”方法 在 Python 2 中 
也 存在 ,但 是 名 为 xrange)。 它 使 用 了 一 种 被 称 为 惰性 求 值 (lazy evaluation) 的 策略 。 与 其 
创建 一 个 新 的 列表 实例 ， 不 如 使 用 range， 它 是 一 个 类 ， 可 以 有 效 地 表示 所 需 的 元 素 范 围 ， 
而 不 必 在 内 存 中 明确 地 存储 它们 。 为 了 更 好 地 探讨 内 置 range 类 ， 我 们 建议 你 创建 一 个 类 似 
于 r=range(8, 140, 5) 的 实例 。 其 结果 是 一 个 相对 轻 量 级 的 对 象 ， 一 个 只 有 几 个 行为 的 range 
类 的 实例 。len(r) 语法 将 报告 给 定 范围 中 元 素 的 数量 (在 我 们 的 例子 中 是 27 ) range 也 支持 
. getitem — 77 iE, r[15] 表达 式 返 回 了 range 中 的 第 16 SICK (1[0] 是 第 一 个 元 素 )。 因 为 
这 个 类 支持 len 和 getitem ， 所 以 它 自动 支持 迭代 ( 见 2.3.4 节 )， 这 就 是 为 什么 可 
以 通过 range 执行 一 个 for 循环 。 

对 此 ， 我 们 准备 展示 一 个 自 定义 的 类 的 版 本 。 代 码 段 2-6 提供 了 一 个 类 ， 我 们 将 其 命名 
为 Range (以 明确 区 分 它 与 内 置 的 range)。 这 一 实现 的 最 大 挑战 是 当 构 建 range 时 通过 调用 者 
发 送 给 定 的 参数 时 正确 地 计算 属于 range 的 元 素 个 数 。 通 过 计算 构造 函数 中 的 值 ， 并 存储 为 
self. length， 把 该 值 从 —len _ 方法 中 返回 就 很 容易 了 。 为 了 正确 地 实现 对 getitem (k) 
的 调用 ， 我们 只 需 把 range 的 初始 值 加 上 k 乘 以 步 长 ( 即 ， 当 k = 0, 我 们 返回 初始 值 )。 这 
有 几 个 值得 在 代码 段 中 检查 的 细节 : 

e 当 讨 论 一 个 可 工作 的 range HAKAN, A PEM TBR, REMH T 

1.5.1 节 中 描述 的 技术 。 
e 我 们 通过 max(0, (stop — start + step — 1)//step) 计算 元 素 的 个 数 ， 对 于 正 数 和 负数 的 步 
长 该 公式 都 需要 测试 。 
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e 在 计算 结果 之 前 ， ”getitem _ 方法 可 通过 将 -转换 为 len(self) - k 以 正确 地 支持 负 


数 下 标 。 
代码 段 2-6 AMA Range 类 的 实现 
| class Range: 
2 """A class that mimic's the built-in range class." "" 


3 
4 def init. (self, start, stop=None, step=1): 
5 """ Initialize a Range instance. 

6 


Semantics is similar to built-in range class. 


8 

9 if step —— 0: 

10 raise ValueError('step cannot be 0') 

11 

12 if stop is None: # special case of range(n) 

13 start, stop — O, start # should be treated as if range(0,n) 
14 

15 # calculate the effective length once 


16 self. length — max(0, (stop — start -- step — 1) // step) 


18 # need knowledge of start and step (but not stop) to support _-getitem_ 
19 self. start — start 
20 self. step — step 


22 def . len. (self): 
23 """ Return number of entries in the range." "" 
24 return self. length 


26 def . getitem.. (self, k): 


27 """ Return entry at index k (using standard interpretation if negative)" "" 
28 if k < 0: 

29 k 4-— len(self) # attempt to convert negative index 
30 

31 if not 0 <= k < self. length: 

32 raise IndexError('index out of range') 

33 

34 return self. start + k * self. step 


2.4 继承 


组 织 各 种 软件 包 的 结构 组 件 的 自然 方法 是 ， 在 一 个 分 层 (hierarchical) 的 方式 中 ， 在 
水 平 层次 上 把 类 似 的 抽象 定义 组 合 在 一 起 ， 下 层 的 组 件 更 加 具体 ， 上 层 的 组 件 更 加 通用 。 
图 2-4 展示 了 这 样 一 个 层次 的 例子 。 用 数学 符号 表示 ， 一 套房 子 是 一 个 建筑 物 的 子 集 
(subset)， 但 它 是 一 个 牧场 的 超 集 (superset)。 层 次 之 间 的 对 应 关系 通常 被 称 为 “is-a” 的 关 
A, ， 就 像 房子 是 建筑 ， 平 房 是 房子 。 

在 软件 开发 中 ， 层 次 设计 是 非常 有 用 的 ， 在 最 通用 的 层次 上 可 以 把 共同 的 功能 分 组 ， 从 
而 促进 代码 的 重用 ， 进 而 将 行为 间 的 差别 视 为 通用 情况 的 扩展 。 在 面向 对 象 的 编程 中 ， 模 
块 化 和 层次 化 组 织 的 机 制 是 一 种 称 为 继承 (inheritance) 的 技术 。 这 个 技术 允许 基于 一 个 现 
有 的 类 作为 起 点 定义 新 的 类 。 在 面向 对 象 的 术语 中 ,通常 描述 现 有 的 类 为 基 类 ( base class), 
XH (parent class) 或 者 超 类 ( superclass)， 而 称 新 定义 的 类 为 子 类 (subclass 或 者 child 
class). 


有 两 种 方式 可 以 让 子 类 有 别 于 父 类 。 子 类 可 以 通过 提供 一 个 新 的 履 盖 (override) MA 
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方法 的 实现 方法 特 化 ( specialize) 一 个 现 有 的 行为 。 子 类 也 可 以 通过 提供 一 些 全 新 的 方法 扩 
展 (extend) 其 父 类 。 





图 2-4 一 个 涉及 建筑 物 的 “is-a” 层 次 图 的 例子 


Python 的 异常 层次 结构 

富有 继承 层次 的 另 一 个 例子 是 在 Python 中 组 织 各 种 异常 类 型 。 我 们 在 1.7 节 中 介绍 
了 许多 类 ,但 没有 讨论 它们 之 间 的 相互 关系 。 图 2-5 说 明了 该 层次 结构 中 的 一 小 部 分 。 
BaseException 类 是 整个 层次 结构 的 根 ， 而 更 具体 的 Exception 类 包括 了 大 部 分 我 们 已 经 讨论 
过 的 错误 类 型 。 程 序 设 计 者 可 以 自由 定义 特殊 的 异常 类 ， 以 表示 在 应 用 程序 的 上 下 文中 可 能 
出 现 的 错误 。 应 该 声明 这 些 用 户 自 定义 的 异常 类 型 为 Exception MF. 

















( SystemExit ] Keyboardinterrupi 
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图 2-5 Python 异常 类 型 层次 的 一 部 分 


2.4.1 扩展 CreditCard 类 


为 了 表示 Python 中 的 层次 机 制 ， 我 们 再 来 看 2.3 节 中 的 信用 卡 类 ， 实 现 子 集 Predatory 
CreditCard。 因 为 没有 更 好 的 名 字 ， 所 以 我 们 将 其 命名 为 PredatoryCreditCard。 新 类 和 原 
始 的 类 将 有 两 方面 的 不 同 : 中 当 尝 试 收费 由 于 超过 信用 卡 额 度 被 拒绝 时 ， 将 会 收取 5 美元 
的 费用 ; @ 将 有 一 个 对 未 清 余额 按 月 收取 利息 的 机 制 ， 即 基于 构造 函数 的 一 个 参数 年 利率 
(Annual Percentage Rate, APR), 

在 实现 这 一 目标 时 ， 我 们 展示 了 特 化 和 扩展 技术 。 在 进行 无 效 的 收费 时 ， 我 们 覆盖 了 
现 有 的 收费 方法 ， 并 由 此 特 化 它 以 提供 新 的 功能 (虽然 新 的 版 本 利用 了 被 覆盖 版 本 的 调用 )。 
为 了 给 收取 利息 提供 支持 ， 我 们 用 名 为 process_month 的 新 方法 扩展 该 类 。 
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_ customer . balance 
bank limit 
account 





get customer() get balance() 
get bank() get limit() 
get account() charge(price) 


make payment(amount) 





PredatoryCreditCard 


: apr 
行为 : process month() charge(price) 


图 2-6 继承 关系 图 








图 2-6 描述 了 我 们 在 设计 新 PredatoryCreditCard 类 中 使 用 的 继承 关系 ， 代 码 段 2-7 给 出 
了 一 个 完整 的 Python 类 的 实现 。 

为 了 表明 新 类 从 现 有 的 CreditCard 类 中 继承 ， 我 们 的 定义 从 class PredatoryCreditCard 
(CreditCard) 语法 开始 。 新 类 的 主体 提供 了 三 个 成 员 函 数 : _ init. charge 和 process month. 
init _ 构造 函数 的 作用 和 CreditCard 构造 函数 非常 类 似 ， 除 新 的 类 之 外 ， 还 有 一 个 额外 的 
参数 来 指定 年 利率 。 新 构造 函数 的 主体 依赖 调用 继承 的 构造 函数 来 执行 大 部 分 的 初始 化 处 理 
(事实 上 ,除了 记录 百分比 之 外 的 一 切 )。 调 用 继承 构造 函数 的 机 制 依赖 于 super() 语法 。 具 
体 来 讲 ， 即 第 15 行 命令 


super( ). . init. (customer, bank, acnt, limit) 


调用 从 CreditCard 父 类 继承 的 _init 方法。 值得 注意 的 是 ， 这 个 方法 只 接受 4 个 参数 。 
我 们 在 名 为 _apr 的 新 域 中 记录 APR 的 值 。 

同样 ，PredatoryCreditCard 类 提供 了 一 个 新 收费 策略 的 实现 方法 ， 该 方法 重 写 了 继 
承 的 方法 。 然 而 ， 新 方法 的 实现 取决 于 对 继承 方法 的 调用 ， 用 第 24 行 中 的 语句 super( ). 
charge(price)。 调 用 函数 的 返回 值 表明 是 否 收费 成 功 。 


代码 段 2-7 评估 利息 和 费用 的 CreditCard FÆ 
class PredatoryCreditCard(CreditCard): 


l 

2 """ An extension to CreditCard that compounds interest and fees." " " 
3 

4 def init. (self, customer, bank, acnt, limit, apr): 

5 """ Create a new predatory credit card instance. 

6 

7 The initial balance is zero. 

8 

9 customer the name of the customer (e.g., ' John Bowman’) 

10 bank the name of the bank (e.g., 'California Savings!) 

11 acnt the acount identifier (e.g., '5391 0375 9387 5309!) 

12 limit credit limit (measured in dollars) 

13 apr annual percentage rate (e.g., 0.0825 for 8.25% APR) 
14 os 

15 super( ). init... (customer, bank, acnt, limit) # call super constructor 


16 self. apr — apr 
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18 def charge(self, price): 


19 """ Charge given price to the card, assuming sufficient credit limit. 

20 

21 Return True if charge was processed. 

22 Return False and assess $5 fee if charge is denied 

23 sk 

24 success = super( ).charge(price) # call inherited method 
25 if not success: 

26 self._balance += 5 # assess penalty 

27 return success # caller expects return value 
28 

29 def process month(self): 

30 """ Assess monthly interest on outstanding balance." "" 

31 if self. balance > 0: 

32 # if positive balance, convert APR to monthly multiplicative factor 
33 monthly_factor = pow(1 + self. apr, 1/12) 

34 self. balance x= monthly. factor 


我 们 检查 返回 值 ， 以 决定 是 否 评估 费用 。 相 应 的 ， 我 们 返回 该 值 给 方法 的 调用 者 ， 这 样 可 以 
使 得 新 的 收费 方法 与 原来 的 方法 有 一 个 类 似 的 外 部 接口 。 

process_month 方法 是 一 种 新 行为 ， 所 以 没有 依赖 继承 的 版 本 。 在 我 们 的 模型 中 ， 这 
种 方法 应 该 每 月 由 银行 调用 一 次 ,来 收取 新 的 利息 费用 。 实 施 这 种 方法 最 具 挑 战 性 的 是 确 
保 我 们 已 经 有 将 年 利率 转换 为 月 利率 的 知识 。 我 们 不 能 简单 地 将 年 利率 除 以 12 来 得 到 月 利 
| (这 样 太 没 道理 ， 因 为 这 将 导致 APR 比 实际 的 更 高 )。 正 确 的 计算 方法 是 1 self. apr FF 
十 二 次 方 ， 并 用 它 作为 乘法 因子 。 例 如 ， 如 果 一 个 APR 是 0.0825 (代表 8.25%)， 我 们 计算 
V1.0825 = 1.006 628， 因 此 每 月 收取 0.6628% 的 利息 。 按 照 这 种 方式 ， 每 年 100 美元 的 债务 
一 年 将 累计 8.25 美元 的 复 利 。 





保护 成 员 
PredatoryCreditCard 子 类 直接 访问 数据 成 员 self. balance， 这 个 数据 成 员 是 由 CreditCard 
父 类 建立 的 。 按 照 约定 ， 名 字 带 下 划 线 表示 它 是 一 个 非 公 有 成 员 ， 所 以 我 们 可 能 会 问 是 否 可 


以 照 这 种 方式 访问 它 。 虽 然 一 般 类 的 用 户 不 会 这 样 做 ， 但 是 我 们 这 里 的 子 类 与 父 类 有 些 特权 
关系 。 一些 面向 对 象 的 语言 (如 Java, C++) 指出 了 非 公 有 成 员 的 区 别 ， 即 允许 声明 的 受 保 
护 (protected) 或 私有 (private) 的 访问 模式 。 被 声明 为 受 保护 的 成 员 可 以 访问 子 类 ， 但 是 
不 能 访问 一 般 的 公有 类 ; 被 声明 为 私有 的 成 员 既 不 能 访问 子 类 ， 也 不 能 访问 公有 类 。 在 这 方 
面 ， 如 果 它 是 受 保护 的 (但 不 是 私有 的 )， 我 们 就 用 balance; 

Python 不 支持 正式 的 访问 控制 ， 但 以 一 个 下 划 线 开头 的 名 字 都 被 看 作 受 保护 的 ， 而 
以 双 下 划 线 开头 的 名 字 (除了 特殊 的 方法 ) 是 被 看 作 私 有 的 。 在 选择 使 用 受 保护 的 数据 
时 ， 我 们 已 经 创建 了 一 个 依赖 ， 在 该 依赖 中 ， 如 果 CreditCard 类 的 作者 改变 了 内 部 设计 ， 
PredatoryCreditCard 可 能 也 会 改变 。 要 注意 的 是 ， 我 们 可 能 在 process_month 方法 中 依赖 公 
有 的 get balance() 方法 来 检索 当前 的 余额 。 但 是 CreditCard 类 的 设计 不 能 为 子 类 提供 一 个 
有 效 的 方式 来 改变 余额 ， 除 了 直接 操作 数据 成 员 。 用 charge 方法 来 为 余额 增加 费用 和 利息 
可 能 是 很 有 吸引 力 的 。 然 而 ， 这 种 方法 不 允许 余额 超过 客户 的 信用 额度 ， 但 是 如 果 有 担保 
的 话 ， 银 行 可 能 会 让 利率 超出 信贷 限额 。 如 果 重 新 设计 原始 的 CreditCard 类 ， 我 们 可 以 添 
加 一 个 非 公 有 的 方法 _set balance， 子 类 可 以 用 该 方法 来 改变 余额 而 不 直接 访问 数据 成 员 


_balance, 


GAIRA 57 


2.4.2 ”数列 的 层次 图 


作为 使 用 继承 的 第 二 个 例子 ， 我 们 将 介绍 和 迭代 数列 的 类 的 层次 。 数 列 是 指数 字 的 序列 ， 
其 中 每 个 数字 都 依赖 于 一 个 或 更 多 的 前 面 的 数字 。 例 如 ， 一 个 等 差 数 列 (arithmetic progression) 
通过 给 前 一 个 数值 增加 一 个 固定 常量 来 确定 下 一 个 数字 ， 一 个 等 比 数列 (geometric 
progression) 通过 前 一 个 值 乘 以 固定 常量 来 确定 下 一 个 数字 。 在 一 般 情 况 下 ， 数 列 需 要 一 个 
初始 值 ， 以 及 在 一 个 或 多 个 先前 值 的 基础 上 确定 新 值 的 方法 。 

为 了 最 大 限度 地 提高 代码 的 可 重用 性 ， 我 们 给 出 了 一 个 由 通用 基 类 产生 的 名 为 
Progression 类 ( 见 图 2-7) 的 分 层 。 从 技术 上 讲 ，Progression 类 产生 全 为 数字 的 数列 : 0, 1, 
2, … 然 而 ， 该 类 被 设计 为 其 他 数列 类 型 的 基 类 ， 提 供 尽 可 能 多 的 公共 函数 ， 并 由 此 把 子 类 的 
负担 减 至 最 小 。 


Progression | 
























ArithmeticProgression 


GeometricProgression |: 


图 2-7 数列 类 的 层级 结构 





FibonacciProgression |. 


代码 段 2-8 提供 了 基本 Progression 类 的 实现 方法 。 这 个 类 的 构造 函数 接受 数列 的 起 始 
值 (默认 为 0 )， 并 用 该 值 初始 化 self. current 数据 成 员 。 

Progression 类 实现 Python 迭代 器 ( 见 2.3.4 节 ) 的 公约 ， 即 特殊 的 ”next — 和 iter 
方法 。 如 果 类 的 用 户 创建 了 一 个 seq = Progression() 的 数列 序列 ，next(seq) 的 每 次 调用 会 返 
回 数列 中 的 下 一 个 值 。 也 可 以 使 用 for-loop 的 语法 for value in seq:， 但 是 我 们 注意 到 ， 默 认 
的 数列 被 定义 为 无 穷 序 列 。 

为 了 更 好 地 从 数列 的 核心 逻辑 中 将 迭代 器 公约 的 技术 分 离 出 来 ,我 们 的 框架 依靠 一 个 名 
为 advance 的 非 公 有 方法 来 更 新 self. current 域 的 值 。 在 默认 的 实现 方法 中 ，_advance 添 
加 了 一 个 当前 值 ， 但 我 们 的 目的 是 子 类 重 写 advance 方法， 以 提供 不 同 的 方法 来 计算 下 一 
个 值 。 

为 方便 起 见 ，Progression 类 还 提供 了 一 个 名 为 print. progression 的 实体 方法 ， 该 方法 显 
示 了 数列 接 下 来 的 n 个 值 。 





代码 段 2-8 ”一 个 通用 数字 数列 类 


class Progression: 
""" Iterator producing a generic progression, 


| 

2 

3 

4 Default iterator produces the whole numbers 0, 1, 2, .. 

7 def __init__(self, start=0): 

8 """ Initialize current to the first value of the progression." " " 


9 self._current = start 


|] def _advance(self): 
12 """ Update self..current to a new value. 


i4 This should be overridden by a subclass to customize progression. 
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16 By convention, if current is set to None, this designates the 

17 end of a finite progression. 

18 ii 

19 self. current += 1 

20 

21 def ..next. (self): 

22 """Return the next element, or else raise Stoplteration error." "" 
23 if self. current is None: # our convention to end a progression 
24 raise Stoplteration() 

25 else: 

26 answer — self. current # record current value to return 
27 self. advance( ) # advance to prepare for next time 
28 return answer # return the answer 

29 

30 def . iter... (self): 

31 """ By convention, an iterator must return itself as an iterator." " " 
32 return self 

33 

34 def print. progression(self, n): 

35 """Print next n values of the progression." "" 

36 print(' '.join(str(next(self)) for j in range(n))) 

一 个 等 差 数列 类 


特殊 数列 的 第 一 个 例子 是 等 差 数 列 。 数 列 默认 逐步 增加 自身 的 值 ， 等 差 数列 通过 给 数列 
的 每 一 项 增加 一 个 固定 的 常量 来 产生 下 一 个 值 。 例 如 ， 用 一 个 初 值 为 0、 增 量 为 4 的 等 差 数 
列 将 产生 序列 0, 4, 8, 12, … 

代码 段 2-9 介绍 了 ArithmeticProgression 类 的 实现 方法 ， 该 类 以 Progression 类 作为 它 的 基 
类 。 新 类 的 构造 函数 接受 增 量 和 初 值 两 个 参数 ， 每 个 参数 都 有 默认 值 。 我 们 约定 ，Arithmetic 
Progression(4) 产生 序列 0, 4, 8, 12, …，ArithmeticProgression(4, 1) 产生 序列 1, 5, 9, 13,…。 


代码 段 2-9 ”一 个 产生 等 差 数 列 的 类 


class ArithmeticProgression(Progression): # inherit from Progression 
""" Iterator producing an arithmetic progression." "" 


1 
2 
3 
4 def init. (self, increment=1, start=0): 
5 """ Create a new arithmetic progression. 


Cn 


7 increment the fixed constant to add to each term (default 1) 

8 start the first term of the progression (default 0) 

9 nun 

10 super(). init... (start) # initialize base class 

11 self. increment — increment 

12 

13 def _advance(self): # override inherited version 
14 """ Update current value by adding the fixed increment." "" 

15 self. current += self. increment 


ArithmeticProgression 构造 函数 的 主体 调用 超 类 的 构造 函数 来 初始 化 current 数据 成 员 
作为 所 需 的 初 值 ， 然 后 直接 为 等 差 数列 建立 新 的 increment 数据 成 员 。 实 现 中 唯一 遗留 的 细 
HES advance 方法 以 便 给 当前 的 值 加 上 增 量 。 

一 个 等 比 数 列 类 

第 二 个 特殊 数列 的 例子 是 一 个 等 比 数列 ， 其 中 每 个 值 由 固定 常量 乘 以 先前 的 值 而 产生 ， 
该 固定 常量 被 称 为 等 比 数列 的 基数 。 等 比 数列 的 初 值 通常 为 1， 而 不 是 0， 因为 任何 因子 乘 
以 0 其 结果 都 是 0。 举 一 个 例子 ， 一 个 以 2 为 基数 的 等 比 数列 为 1, 2, 4, 8, 16, … 
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代码 段 2-10 介绍 了 GeometricProgression KAM 3: 307r 1k .— E RR 2 作为 默认 基数 ， 
并 用 1 作为 默认 的 初 值 ， 但 其 中 任意 一 个 都 可 以 使 用 可 选 参数 。 


代码 段 2-10 ”一 个 产生 等 比 数列 的 类 


class GeometricProgression(Progression): # inherit from Progression 
""" Iterator producing a geometric progression." " " 


4 def init. (self, base—2, start=1): 

5 """ Create a new geometric progression. 

( 

7 base the fixed constant multiplied to each term (default 2) 
8 start the first term of the progression (default 1) 


super( ). init... (start) 
11 self. base — base 


13 def _advance(self): # override inherited version 


14 """ Update current value by multiplying it by the base value." "" 
15 self. current *= self. base 
一 个 斐 波 那 契 数列 类 


作为 最 后 一 个 例子 ， 我 们 介绍 如 何 使 用 数列 框架 来 产生 一 个 斐 波 那 契 数 列 (Fibonacci 
progression) 。 我 们 在 1.8 节 的 “生成 器 ”部 分 讨论 过 斐 波 纳 契 数列 。 斐 波 那 契 数列 的 每 一 
个 值 是 最 近 的 两 个 值 之 和 。 为 了 产生 序列 ， 通 常 以 0 和 1 作为 最 前 面 的 两 个 值 ， 从 而 产生 斐 
波 那 契 数列 : 0, 1, 1, 2, 3, 5, 8, … 一 般 而 言 ， 这 样 的 数列 可 以 从 任意 两 个 初 值 中 生成 。 例 如 ， 
如 果 从 4 和 6 开始 ， 则 产生 的 数列 为 4, 6, 10, 16, 26, 42, = 

在 代码 段 2-11 中 ， 我 们 用 数列 框架 来 定义 一 个 新 的 FibonacciProgression 类 。 这 个 类 与 
等 差 、 等 比 数列 有 显著 不 同 ， 因 为 我 们 不 能 独立 地 从 当前 值 产生 斐 波 那 契 数列 的 下 一 个 值 。 
我 们 必须 得 到 两 个 最 新 的 值 。 基 础 的 Progression 类 已 经 提供 了 用 以 存储 最 新 值 的 _current 
数据 成 员 。FibonacciProgression 类 则 介绍 了 一 个 名 为 _prev 的 新 成 员 来 存储 当前 生成 的 值 。 


代码 段 2-11 ”一 个 产生 斐 波 那 契 数列 的 类 


| class FibonacciProgression(Progression): 
2  """|terator producing a generalized Fibonacci progression." "" 


4 def init. (self, first=0, second=1): 


5 """ Create a new fibonacci progression 

6 

7 first the first term of the progression (default 0) 

8 second the second term of the progression (default 1) 

9 SANESA 

10 super( ). . init... (first) # start progression at first 

11 self. prev — second — first # fictitious value preceding the first 


13 def _advance(self): 
14 """ Update current value by taking sum of previous two." "" 
15 self. prev, self. current — self. current, self. prev 十 self. current 


先前 存储 的 值 和 advance 的 实现 是 直接 相关 的 (我 们 使 用 了 一 个 类 似 于 1.9 节 中 的 同 
时 赋值 的 方法 )。 然 而 ， 问 题 是 如 何在 构造 函数 中 初始 化 先前 的 值 。 需 要 提供 第 一 个 和 第 二 
个 值 作为 构造 函数 的 参数 。 第 一 个 值 被 存储 为 _current， 这 样 它 就 变 为 第 一 个 被 访问 的 值 。 
继续 计算 ,一 旦 第 一 个 值 被 访问 ,我 们 将 通过 赋值 来 设置 新 的 当前 值 (第 二 个 值 将 访问 该 
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值 )， 等 于 第 一 值 加 上 “先前 的 值 ”。 通 过 (second - first) 来 初始 化 先前 的 值 ， 初 始 时 将 first 
+ (second - first) = second 设置 为 所 需 的 当前 值 。 

测试 数列 

为 了 完成 演示 ， 代 码 段 2-12 为 所 有 数列 类 提供 了 一 个 单元 测试 ， 并 在 代码 段 2-13 中 显 
示 了 测试 的 输出 。 


代码 段 2-12 我们 数列 类 的 单元 测试 


if --name-- == '__main__!: 
print('Default progression:') 
Progression( ).print_progression(10) 


print('Arithmetic progression with increment 5:') 
ArithmeticProgression(5).print. progression(10) 


print('Arithmetic progression with increment 5 and start 2:') 
ArithmeticProgression(5, 2).print. progression(10) 


print('Geometric progression with default base:') 
GeometricProgression( ).print. progression(10) 


print('Geometric progression with base 3:') 
GeometricProgression(3).print. progression(10) 


print('Fibonacci progression with default start values:') 
FibonacciProgression( ).print. progression(10) 


print('Fibonacci progression with start values 4 and 6:') 
FibonacciProgression(4, 6).print progression(10) 


fug 2-13 ”代码 段 2-12 测试 的 输出 


Default progression: 

0123456789 

Arithmetic progression with increment 5: 
051015202530354045 

Arithmetic progression with increment 5 and start 2: 
2 7 12 17 22 27 32 37 42 47 

Geometric progression with default base: 
1248 16 32 64 128 256 512 

Geometric progression with base 3: 

13 9 27 81 243 729 2187 6561 19683 
Fibonacci progression with default start values: 
0112358132134 

Fibonacci progression with start values 4 and 6: 
4 6 10 16 26 42 68 110 178 288 


2.4.8 抽象 基 类 


在 定义 一 组 类 的 继承 层次 结构 时 ， 避 免 重复 代码 的 技术 之 一 是 设计 一 个 基 类 ， 该 基 类 可 
以 被 需要 它 的 其 他 类 所 继承 。 例 如 ，2.4.2 节 的 层次 结构 中 包含 一 个 Progression 类 ， 它 是 三 
个 不 同 的 子 类 ( ArithmeticProgression 2$, GeometricProgression 类 和 FibonacciProgression 类 ) 
的 基 类 。 虽 然 可 以 创建 Progression 基 类 的 实例 ， 但 这 样 做 没有 价值 ， 因 为 这 只 是 一 个 增 量 
为 1 的 ArithmeticProgression 类 的 特例 。Progression 类 的 真正 目的 是 集中 实现 其 他 数列 需要 
的 行为 ， 以 简化 这 些 子 类 的 代码 。 
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在 经 典 的 面向 对 象 的 术语 中 ， 如 一 个 类 的 唯一 目的 是 作为 继承 的 基 类 ， 那 么 这 个 类 就 是 
一 个 抽象 基 类 。 更 正式 地 说 ， 一 个 抽象 类 不 能 直接 实例 化 ， 而 具体 的 类 可 以 被 实例 化 。 根 据 
这 个 定义 ，Progression 类 严格 来 说 是 具体 的 类 ， 尽 管 我 们 实质 上 把 它 设计 为 一 个 抽象 基 类 。 

在 静态 类 型 的 语言 中 ， 如 Java 和 C++， 抽 象 基 类 作为 一 个 正式 的 类 型 ， 可 以 确保 一 个 
或 多 个 抽象 方法 。 这 就 为 多 态 性 提供 了 支持 ， 因 为 变量 可 以 有 一 个 抽象 基 类 作为 其 声明 的 类 
型 ， 即 使 它 是 一 个 具体 子 类 的 实例 。 因 为 在 Python 中 没有 声明 类 型 ， 这 种 多 态 性 不 需要 一 
个 统一 的 抽象 基 类 就 可 以 实现 。 出 于 这 个 原因 ，Python 中 没有 那么 强烈 地 要 求 定义 正式 的 抽 
象 基 类 ， 尽 管 Python 的 abc 模块 提供 了 正式 的 抽象 基 类 的 定义 。 

我 们 之 所 以 在 研究 数据 结构 时 专注 于 抽象 基 类 ， 是 因为 Python 的 collections 模块 提供 
了 几 个 抽象 基 类 ， 来 协助 自 定 义 的 数据 结构 与 一 些 Python 的 内 置 数据 结构 共享 一 个 共同 的 
接口 。 这 些 抽 象 基 类 依赖 于 一 个 面向 对 象 的 软件 设计 模式 ， 即 模板 方法 模式 。 模 板 方法 模式 
是 一 个 抽象 基 类 在 提供 依赖 于 调用 其 他 抽象 行为 时 的 具体 行为 。 在 这 种 方式 中 ， 只 要 一 个 子 
类 提供 定义 了 缺失 的 抽象 行为 ， 继 承 的 具体 行为 也 就 被 定义 了 。 

下 面 给 出 一 个 完整 的 例子 ， 抽 象 基 类 collections.Sequence 定义 了 Python 的 list, str 和 
tuple 类 的 共同 行为 ， 即 通过 一 个 整数 索引 访问 序列 中 的 元 素 。 而 且 collections.Sequence 类 提 
fff f count, index 和 contain ”方法 的 具体 实现 ， 可 以 被 其 他 提供 了 _len 和 getitem _ 
方法 的 具体 实现 的 类 所 继承 。 出 于 演示 的 目的 , 我们 提供 了 代码 段 2-14 的 实现 样 例 。 

代码 段 2-14 ”一 个 类 似 于 Collections.Sequence 的 抽象 基 类 


| from abc import ABCMeta, abstractmethod # need these definitions 


class Sequence(metaclass=ABCMeta): 
""" Our own version of collections.Sequence abstract base class." " " 


4 

RI 

6 | Qabstractmethod 

7 def . len. (self): 

8 """ Return the length of the sequence." "" 


10 ^ @abstractmethod 
11 | def ..getitem. (self, j): 


12 """Return the element at index j of the sequence." " 


l4 def . contains. (self, val): 


15 """ Return True if val found in the sequence; False otherwise." "" 
16 for j in range(len(self)): 

17 if self[j] —— val: # found match 
18 return True 

19 return False 


21 def index(self, val): 


22 """Return leftmost index at which val is found (or raise ValueError)." "" 
23 for j in range(len(self)): 

24 if self[j] —— val: # leftmost match 

25 return j 

26 raise ValueError('value not in sequence') # never found a match 
27 

28 def count(self, val): 

29 """ Return the number of elements equal to given value." "" 

30 k=0 

31 for j in range(len(self)): 

32 if self[j] == val: # found a match 

33 k+=1 


34 return k 








这 个 实现 依赖 于 Python 的 两 个 高 级 技术 。 第 一 个 技术 是 声明 abc 模块 中 的 ABCMeta 类 
作为 Sequence 类 的 元 类 。 元 类 不 同 于 超 类 ， 它 为 类 定义 本 身 提供 了 一 个 模板 。 具 体 来 说 ， 
ABCMeta 声明 确保 类 的 构造 函数 引发 异常 。 

第 二 个 先进 技术 是 在 ”len 和 —getitem 方法 声明 前 立即 使 用 @abstractmethod 声 
明 。 这 就 声明 了 这 两 种 特定 的 方法 是 抽象 的 ， 也 意味 着 不 需要 在 Sequence base 类 中 提供 实 
现 ， 但 我 们 期 望 任何 具体 的 子 类 来 实现 这 两 种 方法 。Python 通过 禁止 没有 重 载 抽象 方法 的 具 
体 实现 的 任何 子 类 实例 化 来 强制 执行 这 个 期 望 。 

ft len 和  getitm _ 方法 将 存在 于 具体 子 类 的 假设 下 ，Sequence 类 定义 的 其 余部 
分 提供 了 其 他 行为 的 完整 实现 。 如 果 你 仔细 检查 源 代码 ， 会 发 现 除了 语法 len(self) 和 self[j] 
分 别 通过 特殊 方法 len 和 getitem _ 支持 外 ， contains 和 index 的 具体 实现 不 依 
赖 于 实例 本 身 的 一 切 假设 ， 和 迭代 支持 也 是 自动 的 ， 正 如 2.3.4 节 所 描述 的 那样 。 

在 本 书 的 其 余部 分 ， 我 们 省 略 使 用 abc 模块 的 形式 。 如 果 需 要 一 个 抽象 基 类 ， 我 们 只 是 
简单 地 在 文档 中 记录 对 子 类 提供 的 功能 的 期 望 ， 而 不 需要 正式 声明 抽象 类 。 但 是 我 们 将 使 用 
的 抽象 基 类 是 在 collection 模块 (如 Sequence) 中 定义 好 的 。 使 用 这 样 的 一 个 类 ， 我 们 只 需 
要 依靠 标准 的 继承 技术 。 

例如 ，2.3.5 节 的 代码 段 2-6 中 的 Range 类 就 是 一 个 支持 _len 和”_getitem _ 方法 的 
类 ， 但 该 类 不 支持 方法 count 和 index。 我 们 最 初 将 Sequence 类 声明 为 一 个 超 类 ， 那 么 它 也 
将 继承 count 和 index 方法 。 声 明 语 法 如 下 : 


class Range(collections.Sequence): 


最 后 ， 需 要 强调 的 是 ， 如 果 一 个 子 类 对 从 基 类 继承 的 行为 提供 自己 的 实现 ,那么 新 的 
定义 会 覆盖 之 前 继承 的 。 当 我 们 有 能 力 自 己 实现 一 个 比 通用 方法 更 有 效率 的 方法 时 ， 这 种 
技术 就 可 以 被 使 用 。 例 如 ，Sequence 类 中 的 ”contains ”方法 的 通用 实现 是 基于 在 循环 中 
搜索 想 要 的 值 。 但 对 于 Rane 类 ， 这 里 有 一 个 更 有 效 的 方法 。 如 ， 表 达 式 100000 in Range 
(0, 2000000, 100) 很 明显 计算 为 真 ， 甚 至 不 用 去 检测 范围 中 的 元 素 ， 因 为 范围 是 从 0 开始 ， 
以 100 递增 ， 直 至 数字 达到 2 000 000。 它 一 定 包括 100 000， 因 为 它 是 100 的 倍数 ， 也 在 
0 ~ 2000 000 之 间 。 练 习 C-2.27 提出 的 目标 是 实现 Range. contain 方法 ， 并 且 不 使 用 
(超时 ) 循环 。 


2.5 命名 空间 和 面向 对 象 


命名 空间 是 一 个 抽象 名 词 ， 它 管理 着 特定 范围 内 定义 的 所 有 标识 符 ， 将 每 个 名 称 映射 到 
相应 的 值 。 在 Python 中 ， 函 数 、 类 和 模块 都 是 第 一 类 对 象 ， 所 以 命名 空间 内 与 标识 符 相关 
的 “ 值 ”可 能 实际 上 是 一 个 函数 、 类 或 模块 。 

我 们 在 1.10 节 探 讨 了 Python gj hp ése WT. WAR TE PK 
数 调用 时 局 部 范围 中 定义 的 标识 符 。 在 这 一 节 ， 我 们 将 讨论 面向 对 象 管理 中 命名 空间 的 重要 
作用 。 


2.5.1 实例 和 类 命名 空间 


首先 ， 我 们 开始 探讨 所 谓 的 实例 命名 空间 ， 就 是 管理 单个 对 象 的 特定 属性 。 例 如 ， 
CreditCard 类 的 每 个 实例 都 包含 不 同 的 余额 、 不 同 的 账号 、 不 同 的 信用 额度 等 (虽然 某 些 情 
况 下 巧合 地 有 着 相同 的 余额 或 信用 额度 )。 每 张 信 用 卡 将 有 一 个 专用 的 实例 命名 空间 来 管理 
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这 些 值 。 

每 个 已 定义 的 类 都 有 一 个 单独 的 类 命名 空间 。 这 个 命名 空间 用 于 管理 一 个 类 的 所 有 实 
例 所 共享 的 成 员 或 没有 引用 任何 特定 实例 的 成 员 。 例 如 ，2.3 节 的 CreditCard 类 中 的 make_ 
payment 方法 不 是 被 该 类 中 的 每 个 实例 单独 存储 ， 该 成 员 函 数 存储 在 CreditCard 类 的 命名 空 
间 中 。 基 于 代码 段 2-1 和 2-2 中 的 定义 ，CreditCard 类 的 命名 空间 包含 的 函数 有 init 

_ get customer 、get bank, get account, get balance, get limit, charge 和 iik. 
payments PredatoryCreditCard 类 有 自己 的 命名 空间 ， 其 中 包含 了 我 们 为 该 子 类 定义 的 三 种 
方法 : init 、charge 和 process month. 

图 2-8 提供 了 三 个 命名 空间 : 第 一 个 类 命名 空间 包含 CreditCard 类 的 方法 ， 第 二 个 类 命 
名 空间 包含 PredatoryCreditCard 类 的 方法 ， 最 后 一 个 是 PredatoryCreditCard 类 的 实例 命名 
空间 。 我 们 注意 到 名 为 charge 的 函数 有 两 种 不 同 的 定义 : 一 个 是 在 CreditCard 类 ， 男 一 个 
是 在 PredatoryCreditCard 类 中 重 写 了 该 方法 。 类 似 的 ， 也 有 两 种 不 同 的 ”init _ 实现 。 但 
process_month 是 仅 在 PredatoryCreditCard 类 的 范围 内 定义 的 名 字 。 实 例 命名 空间 包含 了 该 
实例 的 所 有 数据 成 员 (包括 PredatoryCreditCard 类 构造 方法 中 定义 的 _apr 成 员 )。 


ja 


tion 
ae ii ‘John Bowman' 
function 
: ‘California Savings' 
function 
; '5391 0375 9387 5309' 
function . 
1234.56 
function 
: 2500 
function 





0.0825 
function 





function 


a) Credit Card 类 命名 空间 b ) Predatory Credit Card 类 命名 空间 c) Predatory Credit Card 对 象 的 实例 命名 空间 
图 2-8 三 种 命名 空间 的 概念 视图 


条 目 是 怎样 在 命名 空间 中 建立 的 

为 什么 有 的 成 员 (如 balance) 驻 留 在 Credit Card 类 的 实例 命名 空间 ， 而 有 的 成 员 (如 
make payment) 驻 留 在 类 命名 空间 ?理解 这 一 问题 是 非常 重要 的 。 当 新 的 信用 卡 实例 构造 好 
Ji, balance RAPE init 建立 起 来 了 。 原 始 的 赋值 使 用 语法 self.balance = 0， 其 中 self 
是 新 创建 实例 中 的 标识 符 。 在 这 种 赋值 中 ，self.balance 中 self 作为 限定 符 使 用 ， 这 使 得 
_balance 标识 符 直 接 被 添加 到 实例 命名 空间 中 。 

当 使 用 继承 时 ， 每 个 对 象 仍 有 单一 的 实例 命名 空间 。 例 如 ， 当 构造 PredatoryCreditCard 
类 的 一 个 实例 后 ， apr 属性 以 及 如 _balance fil. limit 等 属性 都 驻 留 在 该 实例 的 命名 空间 ， 因 
为 所 有 赋值 都 使 用 一 个 特定 的 语法 ， 如 self. apr. 

一 个 类 命名 空间 包含 所 有 直接 在 类 定义 体内 的 声明 。 例 如 , CreditCard 类 定义 有 以 下 结构 : 


class CreditCard: 
def make. payment(self, amount): 


因为 make payment 函数 是 在 CreditCard 类 中 声明 的 ， 所 以 它 也 与 CreditCard 类 命名 空间 中 
的 名 字 make payment 相关 联 。 尽 管 成 员 函 数 是 最 典型 的 在 类 命名 空间 中 声明 的 条 目 类 型 ， 
但 我 们 接 下 来 还 会 讨论 其 他 数据 值 的 类 型 ， 甚 至 讨论 其 他 类 是 怎样 在 类 命名 空间 中 声明 的 。 


类 数据 成 员 

当 有 一 些 值 (如 常量 )， 被 一 个 类 的 所 有 实例 共享 时 ， 我 们 就 会 经 常用 到 类 级 的 数据 成 
员 。 在 这 种 情况 下 ， 在 每 个 实例 的 命名 空间 中 存储 这 个 值 就 会 造成 不 必要 的 浪费 。 例 如 ,我 
们 回顾 一 下 2.4.1 节 中 介绍 的 PredatoryCreditCard 类 ， 在 该 类 中 会 因为 信用 卡 额度 限制 而 使 
试图 支付 5 美元 费用 的 操作 失败 。 我 们 选择 5 美元 的 费用 是 有 点 随意 的 ， 如 果 使 用 命名 变量 ， 
而 不 是 将 文字 值 嵌 入 代码 中 ,我 们 的 编码 风格 会 更 好 。 通 常 ， 这 些 费 用 的 数额 是 由 银行 的 政 
策 决定 的 ， 对 每 个 客户 都 一 样 。 这 种 情况 下 ， 我 们 可 像 如 下 样式 定义 和 使 用 类 数据 成 员 : 

class PredatoryCreditCard(CreditCard): 

OVERLIMIT.FEE — 5 # this is a class-level member 


def charge(self, price): 
success = super( ).charge(price) 
if not success: 
self. balance += PredatoryCreditCard.OVERLIMIT_FEE 
return success 


数据 成 员 OVERLIMIT FEE 直接 进入 PredatoryCreditCard 类 命名 空间 ， 因 为 赋值 在 类 
定义 的 直接 范围 内 发 生 ， 并 且 没 有 任何 限定 标识 符 。 

RE 
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数据 结构 实现 中 多 次 予以 探讨 。 可 以 使 用 如 下 语法 完成 : 


class A: # the outer class 
class B: # the nested class 


在 这 种 情况 下 ，B 类 是 艇 套 类 。 标 识 符 B 是 进入 了 A 类 的 命名 空间 相关 联 的 一 个 新 定义 的 
类 。 我 们 注意 到 这 种 技术 与 继承 的 概念 无 关 ， 因 为 B 类 不 继承 A 类 。 

在 一 个 类 中 赃 套 另 一 个 类 ， 这 表明 舱 套 类 的 存在 需要 外 部 类 的 支持 。 此 外 ， 它 有 助 于 减 
少 潜在 的 命名 冲突 ， 因 为 它 允 许 类 似 的 命名 类 存在 于 另 一 个 上 下 文中 。 例 如 ， 我 们 稍 后 将 介 
绍 链表 的 数据 结构 ， 它 通过 定义 一 个 藤 套 节点 类 来 存储 列表 的 各 个 组 件 。 我 们 还 介绍 树 的 数 
据 结 构 ， 这 取决 于 其 自身 的 组 套 节点 类 。 这 两 个 结构 根据 不 同 的 节点 定义 ,我 们 可 以 通过 在 
各 自 的 容器 类 中 藤 套 各 自 的 节点 定义 来 避免 歧义 。 

将 一 个 类 艇 套 为 另 一 个 类 的 成 员 还 有 一 个 优点 ， 就 是 它 允 许 更 高 级 形式 的 继承 ， 使 外 部 
类 的 子 类 重 载 艇 套 类 的 定义 。 我 们 将 在 11.2 节 中 实现 树 结构 的 节点 时 使 用 这 种 技术 。 

字典 和 slots _ 声明 

默认 情况 下 ，Python 中 的 每 个 命名 空间 均 代 表 内 置 dict 类 的 一 个 实例 (参见 1.2.3 节 )， 
即将 范围 内 识别 的 名 称 与 相关 联 的 对 象 映射 起 来 。 虽 然 字典 结构 支持 相对 有 效 的 名 称 查找 ， 
但 它 需 要 的 额外 内 存 使 用 量 超出 了 它 存 储 原始 数据 的 内 存 (我 们 将 在 第 10 章 探 讨 实现 字典 
的 数据 结构 ) o 

Python 提供 了 一 种 更 直接 的 机 制 来 表示 实例 命名 空间 ， 以 避免 使 用 一 个 辅助 字典 。 使 
用 流 表示 一 个 类 的 所 有 实例 ， 类 定义 必须 提供 一 个 名 为 slots_ 的 类 级 别 的 成 员 分 配给 一 个 
固定 的 字符 串 序列 以 此 服务 于 变量 。 例 如 ， 在 CreditCard 类 中 ， 声 明 如 下 : 


class CreditCard: 
--Slots__ = ' customer', ' bank', ' account', ' balance', ' limit' 


在 这 个 例子 中 ， 赋 值 的 右边 是 一 组 元 组 〈 见 1.9.3 节 元 组 的 自动 打包 )。 
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如 果 使 用 继承 时 ， 基 类 声明 了 — slots _， 那 么 为 了 避免 字典 实例 的 创建 ， 子 类 也 必须 
声明 __slots。 子 类 的 声明 只 需 包 含 新 创建 的 补充 方法 的 名 称 。 例 如 ，PredatoryCreditCard 的 
声明 如 下 : 


class PredatoryCreditCard(CreditCard): 
z.8lots... = t apr" # in addition to the inherited members 


我 们 可 以 选择 使 用 _slots _ 简化 本 书 中 每 个 类 的 声明 ， 但 并 不 会 这 样 做 ， 因 为 这 样 将 
使 Python 程序 非典 型 。 也 就 是 说 ， 这 本 书 里 有 几 个 类 ， 我们 希望 有 大 量 的 实例 ， 每 个 代表 
一 个 轻 量 级 构造 。 例 如 ， 当 讨论 垦 套 类 ， 我 们 建议 链表 和 树 作 为 数据 结构 通常 来 组 成 大 量 的 
个 体 节点 。 为 了 更 好 地 提升 内 存 使 用 效率 ,我 们 将 在 所 有 期 望 有 很 多 实例 的 肉 套 类 中 使 用 显 
XH) slots _ 声明 。 


2.5.2 名称 解析 和 动态 调度 


在 上 一 节 中 ， 我们 讨论 了 各 种 命名 空间 以 及 建立 访问 命名 空间 的 机 制 。 在 本 节 中 ， 我 们 
将 研究 在 Python 的 面向 对 象 框架 中 检索 名 称 时 的 过 程 。 当 用 点 运算 符 语法 访问 现 有 的 成 员 
(如 obj.foo) AY, Python 解释 器 将 开始 一 个 名 称 解 析 的 过 程 ， 描 述 如 下 : 

1) 在 实例 命名 空间 中 搜索 ， 如 果 找 到 所 需 的 名 称 ， 关 联 值 就 可 以 使 用 。 

2) 否则 在 该 实例 所 属 的 类 的 命名 空间 中 搜索 ， 如 果 找 到 名 称 ， 关 联 值 可 以 使 用 。 

3) 如 果 在 直接 的 类 的 命名 空间 中 没有 ， 搜 索 仍 在 继续 ， 通 过 继承 层次 结构 向 上 ， 检 查 
每 一 个 父 类 的 类 名 称 空间 (通常 通过 检查 超 类 ， 接 着 是 超 类 的 超 类 ， 等 等 )。 第 一 次 找到 这 
个 名 字 ， 它 的 关联 值 可 以 使 用 。 

4) 如 果 还 没有 找到 该 名 称 ， 就 会 引发 一 个 AttributeError 异常 。 

举 一 个 实际 的 例子 ， 假 设 mycard 标识 的 PredatoryCreditCard 类 的 一 个 实例 。 考 虑 以 下 
可 能 的 使 用 模式 : 

e mycard. balance (等 价 于 内 部 方法 体 中 的 self. balance) : 在 mycard 实例 命名 空间 中 

找到 balance 方法 。 

e mycard.process month(): : 开始 搜索 实例 命名 空间 ， 但 是 在 这 个 名 称 空间 没有 找到 

process month(). AJ, 7& PredatoryCreditCard 类 命名 空间 搜索 ; 在 本 例 中 ， 这 个 
名 字 找 到 了 ， 方 法 也 调用 了 。 

e mycard.make payment(200) : 没有 在 实例 命名 空间 和 PredatoryCreditCard 类 命名 空间 中 

找到 make payment, iX METERS CreditCard 中 解析 出 来 的 ， 继 承 方法 也 被 调用 了 。 

e mycard.charge(50): 在 实例 命名 空间 中 搜索 charge 名 称 失败 。 接 着 检查 PredatoryCreditCard 

类 的 命名 空间 ， 因 为 这 是 实例 的 真实 类 型 。 在 该 类 中 有 一 个 charge 函数 的 定义 ， 该 
方法 也 可 以 调用 。 

最 后 一 个 案例 显示 ，PredatoryCreditCard 类 的 charge PK RH 3X, T CreditCard 命名 空间 
中 charge 函数 的 版 本 。 在 传统 的 面向 对 和 象 术语 中 ，Python 使 用 动态 调度 (或 动态 绑 定 ) 来 确 
定 运行 时 基于 调用 其 对 象 的 类 型 实现 函数 的 调用 ， 这 与 一 些 使 用 静态 调度 的 语言 相似 ， 即 在 
编译 时 基于 变量 声明 的 类 型 来 决定 调用 函数 的 版 本 。 


2.6 RENN 
在 第 1 章 中 ， 我 们 曾 强调 ， 一 个 赋值 语句 foo = bar 使 对 象 bar 有 一 个 别名 foo。 在 本 节 
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中 ， 我 们 考虑 的 是 拷贝 对 象 的 一 个 副本 ， 而 不 是 一 个 别名 。 在 应 用 程序 中 ， 当 我 们 想 以 一 种 
独立 的 方式 修改 原始 的 或 拷贝 的 内 容 时 ， 这 是 非常 必要 的 。 

考虑 这 样 一 个 场景 : 在 该 场景 中 ， 我 们 各 种 列表 的 颜色 ， 每 个 颜色 代表 假定 颜色 类 的 
一 个 实例 。 我 们 让 标识 符 warmtones 表示 现 有 的 颜色 (如 橙色 、 棕 色 ) 列表 。 在 这 个 应 用 程 
序 中 ， 我 们 希望 创建 一 个 名 为 palette 的 新 列表 ， 复 制 一 份 warmtones 列表 。 不 过 ， 我 们 想 
随后 可 以 在 palette 中 添加 额外 的 颜色 ， 或 修改 、 删 除 一 些 现 有 的 颜色 ， 而 不 影响 warmtones 
的 内 容 。 如 果 执 行 命令 


palette — warmtones 


就 创建 了 一 个 别名 ， 如 图 2-9 所 示 ， 没 有 创建 新 的 列表 。 相 反 ， 新 的 标识 符 palette 参考 原先 
的 列表 。 

不 幸 的 是 ， 这 不 符合 我 们 的 期 望 ， 因 为 如 果 随 后 在 palette 中 添加 或 删除 颜色 ， 我 们 修 
改 的 列表 为 warmtones。 

我 们 可 以 用 以 下 语法 创建 一 个 新 的 列表 实例 : 


palette = list(warmtones) 


在 这 种 情况 下 ,我 们 显 式 调用 列表 构造 函数 ， 将 第 一 个 列表 作为 参数 ， 这 将 导致 一 个 新 
的 列表 被 创建 ， 如 图 2-10 所 示 ， 这 被 称 为 浅 拷贝 。 新 的 列表 被 初始 化 ， 以 便 其 内 容 与 原来 
的 序列 相同 。 然 而 ，Python 的 列表 是 用 作 参 考 的 ( 见 1.2.3 节 )， 所 以 新 列表 与 原 列表 代表 了 
引用 相同 元 素 的 顺序 。 


warmtones B u palette warmtones 
249 169 249 
124 163 124 
43 52 43 


图 2-9 相同 颜色 列表 的 两 个 别名 图 


这 比 第 一 次 尝试 的 情况 更 好 ， 我 们 可 以 合理 地 从 palette 添加 或 删除 元 素 而 不 影响 
warmtones。 然 而 ， 如 果 编 辑 palette 中 的 颜色 实例 列表 ， 则 相对 改变 了 warmtones 的 内 容 。 尽 
管 palette 和 warmtones 是 不 同 的 列表 ， 但 仍 有 间接 的 混 丢 ， 例 如 ，palette [0] 和 warmtones[0] 
为 相同 颜色 实例 的 别名 。 

我 们 更 希望 palette 是 warmtones 的 深 拷 贝 。 在 深 拷 贝 中 ， 新 副本 引用 的 对 象 也 是 从 原 
始 版 本 中 复制 过 来 的 〈 见 图 2-11 )。 


warmtones "m palette 
169 
163 
52 


图 2-11 颜色 列表 的 深 拷贝 


palette 














124 
43 
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Python 的 copy 模块 

要 创建 一 个 深 拷 贝 ， 可 以 通过 显 式 复制 原始 颜色 实例 来 填充 列表 ， 但 这 需要 知道 如 何 复 
制 颜色 (而 不 是 别名 )。Python 提供 了 一 个 很 方便 的 模块 ， 即 copy， 它 能 产生 任意 对 象 的 浅 
拷贝 和 深 拷贝 。 

该 模块 提供 两 个 函数 : copy 函数 和 deepcopy A% copy 函数 创建 对 象 的 浅 拷贝 ， 
deepcopy 函数 创建 对 象 的 深 找 贝 。 引 入 模块 后 ， 我 们 可 以 为 例子 创建 一 个 深 拷 贝 ， 如 
图 2-11 所 示 ， 所 使 用 的 命令 如 下 : 


palette — copy.deepcopy(warmtones) 


2.7 练习 


请 访问 www.wiley.com/college/goodrich 以 获得 练习 帮助 。 
巩固 
R-2.1 给 出 三 个 生死 依 关 的 软件 应 用 程序 的 例子 。 
R-2.2 ”给 出 一 个 软件 应 用 程序 的 例子 ， 其 中 适应 性 意味 着 产品 销售 和 破产 的 生命 周期 间 的 不 同 。 
R-2.3 ”描述 文本 编辑 器 GUI 的 组 件 和 它 封装 的 方法 。 
R-2.4 编写 一 个 Python 类 Flower, HAA str, int, float 类 型 的 三 种 实例 变量 ,分 别 代表 花 的 名 字 、 
花 办 的 数量 和 价格 。 该 类 必须 包含 一 个 构造 函数 ， 该 构造 函数 给 每 个 变量 初始 化 一 个 合适 的 
值 。 该 类 应 该 包含 设置 和 检索 每 种 类 型 值 的 方法 。 

R-2.5 使 用 1.7 节 的 技术 修订 CreditCard 类 的 charge 和 make payment 方法 确保 调用 方 可 以 将 一 个 数 
字 作 为 参数 传递 。 

R-2.6 如果 CreditCard 类 的 make payment 方法 接收 到 的 参数 是 负数 ， 这 将 影响 账户 的 余额 。 修 改 实 
现 ， 使 得 传递 的 参数 值 如 果 为 负数 ， 即 抛 出 ValueError 异常 。 

R-2.7 2.3 节 的 CreditCard 类 将 一 个 新 账户 的 余额 初始 化 为 零 。 修 改 这 个 类 ， 使 构造 函数 具有 第 五 个 
参数 作为 可 选 参数 ， 它 可 以 初始 化 一 个 余额 不 为 零 的 新 账户 。 而 原来 的 四 参数 构造 函数 仍然 可 
以 用 来 生成 余额 为 零 的 新 账户 。 

R-2.8 在 代码 段 2-3 的 CreditCard 类 测试 中 修改 第 一 个 for 循环 的 声明 ， 使 三 张 信 用 卡 的 其 中 之 一 超 
过 其 信用 额度 。 哪 张 信 用 卡 会 出 现 这 种 情况 ? 

R-2.9 实现 2.3.3 节 Vector 类 的 _sub — 方法 ,使 表达 式 u - v 返 回 一 个 代表 两 矢量 间 差 异 的 新 矢量 

实例 。 

R-2.10 实现 2.3.3 节 Vector EM) — neg _ 方法 ,使 表达 式 - v 返回 一 个 新 的 矢量 实例 。 新 矢量 v 的 坐 
标 值 都 是 负 值 。 

R-2.11 在 2.3.3 节 中 ,我 们 注意 到 Vector 类 支持 形 如 v=u+ [5, 3, 10, - 2，1] 这 样 的 语法 形式 ， 
向 量 和 列表 的 总 和 返回 一 个 新 的 向 量 。 然 而 ,语法 v= [5, 3, 10, - 2，1] + u 确 是 非法 的 。 
解释 应 该 如 何 修改 Vector 类 的 定义 使 得 上 述 语 法 能 够 生成 新 的 向 量 。 

R-2.12 3:34 2.3.3 WPA Vector KM mul 方法 ,使 得 表达 式 v*3 返回 一 个 新 的 矢量 实例 ， 新 矢 
量 v 的 坐标 值 都 是 以 前 的 3 倍 。 

R-2.13 2&2] R-2.12 要 求 对 2.3.3 节 中 的 Vector 类 实现 __mul _ 方 法， 以 提供 对 语法 v*3 的 支持 。 试 
KA rmui 方法， 提供 对 语法 3*v 的 支持 。 

R-2.14 实现 2.3.3 节 Vector 268 — mul 方法， 使 表达 式 u*v 返回 一 个 标量 代表 向 量 点 运算 的 结果 ， 
Bl SS-i t We 
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R-2.23 
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RIF 


2.3.3 节 的 Vector 类 提供 接受 一 个 整数 4 的 构造 函数 ， 并 产生 一 个 4d 维 向 量 ， 它 的 所 有 坐标 等 
于 0。 另 一 种 创建 撩 量 的 便捷 方式 是 给 构造 函数 传递 一 个 参数 ， 一 些 迭 代 类 型 可 以 代表 一 系列 
的 数字 ， 创 建 一 个 向 量 ， 它 的 维度 等 于 序列 的 长 度 ， 坐 标 值 等 于 序列 值 。 例 如 ，Vector ([7, 4, 5D 
会 产生 一 个 三 维 向 量 ， 坐 标 为 <4，7，5>。 修 改 构造 函数 ,使 它 可 以 接受 任何 形式 的 参数 。 
也 就 是 说 ， 如 果 一 个 整数 被 传递 ， 它 就 产生 了 一 个 所 有 坐标 值 为 零 的 向 量 。 但 是 如 果 提 供 了 
一 个 序列 ， 它 就 产生 了 一 个 坐标 值 等 于 序列 值 的 向 量 。 

2.3.5 节 的 Range 类 按照 如 下 公式 

max(0, (stop — start 十 step — 1) // step) 

去 计算 范围 内 元 素 的 数量 。 即 使 假设 一 个 正 的 step 大 小 ， 也 并 不 能 很 明显 地 看 出 为 什么 这 个 
公式 提供 了 正确 的 计算 。 可 以 用 你 自己 的 方式 证 明 这 个 公式 。 

从 下 面 类 的 集合 中 男 一 个 类 的 继承 图 : 

© Goat RPE LS object 类 ， 增加 了 实例 变量 tail 以 及 方法 milk() 和 jump()。 

e Pig 类 扩展 了 object 类 ， 增 加 了 实例 变量 nose 以 及 方法 eat(food) 和 wallow(). 

© Horse 类 扩展 了 object 类 ， 增 加 了 实例 变量 height 和 color 以 及 方法 run0 和 jump()。 

e Racer 类 扩展 了 Horse 类 ， 增 加 了 方法 race()。 

e Equestrian 类 扩展 了 Horse 类 ， 增 加 了 实例 变量 weight 以 及 方法 trot() 5j is trained().. 
给 出 一 个 来 自 Python 代码 的 简短 片段 ， 使 用 2.4.2 节 的 Progression 类 ， 找 到 那个 以 2 开始 且 
以 2 作为 前 两 个 值 的 斐 波 那 契 数列 的 第 8 个 值 。 

利用 2.4.2 节 的 ArithmeticProgression 类 ， 以 0 开始 ， 增 量 为 128， 在 到 达 整 数 29 或 者 更 大 的 
数 时 ， 我 们 需要 执行 多 少 次 的 调用 ? 

拥有 一 棵 非常 深 的 继承 树 会 有 哪些 潜在 的 效率 劣势 ? 也 就 是 说 ， 有 一 个 很 大 的 类 的 集合 ，A、 


拥有 一 棵 非常 浅 的 继承 树 会 有 哪些 潜在 的 效率 劣势 ? 也 就 是 说 ， 有 一 个 很 大 的 类 的 集合 ，A、 
B、C…… 所 有 的 这 些 类 扩展 来 自 一 个 单一 的 类 Z。 

collections.Sequence 抽象 基 类 不 提供 对 两 个 序列 的 比较 支持 ， 从 代码 段 2-14 中 修改 Sequence 
类 ,使 其 定义 包含 eq _ 方法 ,使 两 个 序列 中 的 元 素 相等 时 ， 表 达 式 seq] == seq2 返回 True. 
在 之 前 的 问题 中 有 相似 的 问题 ,使 用 方法 — 00€ — 参数 化 Sequence 类 ， 使 其 支持 字典 比较 seql < 
seq2. 


假设 你 在 一 个 新 的 电子 书 阅读 器 的 设计 团队 。 你 的 读者 将 需要 Python 软件 哪些 主要 的 类 和 方 
法 ?你 应 该 为 这 段 代码 设计 一 个 继承 关系 图 ， 但 你 不 需要 写 任何 实际 的 代码 。 你 的 软件 体系 
结构 至 少 应 该 包括 顾客 购买 新 书 的 方式 、 查 看 他 们 购买 书 的 清单 以 及 阅读 他 们 购买 的 书籍 。 
练习 R-2.12 使 用 _mnul ”方法 支持 使 用 一 个 数字 乘 以 Verctor 类 ， 而 练习 R-2.14 使 用 — mul. — 
方法 支持 运用 点 运算 计算 两 个 向 量 。 给 出 Verctor mul _ 的 一 个 简单 实现 ， 使 用 运行 时 类 型 
来 检查 是 否 支持 这 两 种 语法 u*v 和 u*k, u 和 v 表示 向 量 实例 ，k 代表 一 个 数字 。 

2.3.4 节 的 Sequencelterator 类 提供 众所周知 的 前 向 迭代 器 。 实 现 一 个 名 为 ReversedSequence 
Iterator 的 类 ， 以 此 作为 任何 Python 序列 的 反 向 迭代 器 。 第 一 次 调用 next 返回 序列 的 最 后 一 
个 元 素 ， 第 二 次 调用 next 返回 倒数 第 二 个 元 素 ， 以 此 类 推 。 

在 2.3.5 节 中 对 于 Ranger, "kinr", 我 们 注意 到 Range 类 的 版 本 隐 式 地 支持 迭代 ， 因 为 它 显 
Xd len 和 getitem _。 该 类 也 接受 对 布尔 类 型 的 隐 式 支持 。 这 个 测试 通过 范围 基于 
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前 向 和 迭代 器 进行 评估 ， 通 过 试验 证 明 2 in Range(10000000) 对 比 9 999 999 in Range(10000000) 
的 相对 速度 。 请 提供 一 种 contains _ 方法 更 有 效 的 实现 ， 以 确定 特定 的 值 是 否 属于 给 定 范围 
内 。 所 提供 方法 的 运行 时 间 应 独立 于 范围 的 大 小 。 

2.4.1 节 的 PredatoryCreditCard 类 提供 了 process_month 方法 ， 可 使 模型 完成 每 月 一 次 的 循环 。 
请 修改 该 类 ， 实 现 这 样 的 功能 : 在 本 月 内 ， 一 旦 用 户 完成 十 次 呼叫 ， 就 需要 对 其 收取 费用 。 
每 增加 一 个 额外 的 呼叫 ， 收 取 1 美元 的 附加 费 。 

请 修改 2.4.1 节 的 PredatoryCreditCard 类 ， 实 现 这 样 的 功能 : 给 用 户 分 配 一 个 每 月 最 低 付款 
额 ， 作 为 账户 的 一 部 分 ， 如 果 客 户 在 下 一 个 月 周期 之 前 没有 连续 地 支付 最 低 金额 ， 则 要 评估 
延迟 的 费用 。 

在 2.4.1 节 的 末尾， 我 们 认为 一 个 CreditCard 类 支持 非 公有 制 的 方法 模型 set balance(b)， 可 
以 被 子 类 使 用 以 影响 余额 的 改变 ， 而 不 直接 访问 数据 成 员 _balance。 相 应 地 修改 CreditCard 
类 和 PredatoryCreditCard 类 ， 实 现 这 样 一 个 模型 。 

写 一 个 扩展 自 Progression 类 的 Python 类 ， 使 Progression 中 的 每 个 值 都 是 前 两 个 值 差 的 绝对 
值 。 其 中 应 包括 一 个 构造 函数 ， 以 接受 一 对 数字 作为 第 一 和 第 二 个 值 ， 使 用 2 和 200 作为 默 
认 值 。 

写 一 个 扩展 自 Progression 类 的 Python 类 ， 使 Progression 中 的 每 个 值 是 前 一 个 数值 的 平方 根 
(注意 : 你 不 能 用 一 个 整数 来 表示 每 个 值 ) 。 构 造 函 数 应 该 接受 一 个 可 选 参数 用 于 指定 开始 值 ， 
使 用 65536 作为 默认 值 。 


写 一 个 Python 程序 ， 如 输入 标准 的 代数 多 项 式 ， 则 输出 该 多 项 式 的 一 阶 导 数 。 

写 一 个 Python 程序 ， 如 输入 一 个 文件 ， 则 输出 一 个 柱 形 图 表 ， 以 显示 文档 中 每 个 字母 字符 出 
现 的 频率 。 

写 一 组 Python 类 ， 可 以 模拟 网 络 应 用 程序 的 其 中 一 方 Alice， 定 期 创建 一 组 她 想 发 给 Bob 的 
包 。 互联 网 进程 不 断 检查 是 否 Alice 有 想 要 发 送 的 包 ， 如 果 有 ， 就 发 送 至 Bob 的 计算 机 ，Bob 
定期 检查 自己 的 计算 机 ， 以 确定 是 否 收 到 来 自 Alice 的 包 ， 如 果 有 ， 他 将 阅读 并 删除 包 。 

写 一 个 Python 程序 来 模拟 生态 系统 ， 其 中 包含 两 种 类 型 的 动物 一 一 能 与 鱼 。 生 态 系 统 还 包括 
一 条 河流 ， 它 被 建 模 为 一 个 比较 大 的 列表 。 列 表 中 的 每 一 个 元 素 应 该 是 一 个 Bear 对 象 、 一 个 
Fish 对 象 或 者 None。 在 每 一 个 时 间 步 长 ， 基 于 随机 过 程 ， 每 一 个 动物 都 试图 进入 一 个 相 邻 的 
列表 位 置 或 停留 在 原 处 。 如 果 两 只 相同 类 型 的 动物 竞争 同一 单元 格 ， 那 么 它们 留 在 原 处 ， 但 
它们 创造 了 这 种 类 型 动物 的 新 实例 ， 实 例 放 置 在 列表 中 的 一 个 随机 ( 即 以 前 为 None) 位 置 。 
如 果 一 头 能 和 一 条 鱼 况 争 ， 那 么 鱼 就 会 死亡 ( 即 它 消失 了 )。 

在 之 前 的 项 目 中 写 一 个 模拟 器 ， 但 添加 一 个 布尔 值 gender 字段 和 一 个 浮 点 strength 字段 到 每 
一 个 动物 ， 使 用 Animal 类 作为 基础 类 。 如 果 两 只 同一 类 型 的 动物 竞争 ， 如 果 它 们 是 不 同性 
别 的 动物 ， 那 么 这 种 类 型 只 创建 一 个 新 的 实例 ; 否则 ， 如 果 两 只 相同 类 型 和 性 别 的 动物 竞争 ， 
那么 只 有 力量 更 大 的 动物 才 会 生存 。 

写 一 个 Python 程序 ， 模 拟 一 个 支持 电子 书 阅读 器 的 功能 系统 。 你 应 该 为 用 户 在 系统 中 提供 
“ 买 ”新 书 、 查 看 他 们 所 购买 书 的 名 单 以 及 阅读 所 购买 的 书籍 的 方法 。 系 统 应 该 使 用 实际 的 书 
籍 〈 其 版 权 已 经 过 期 并 可 在 互联 网 上 获得 )， 为 系统 用 户 “ 购 买 ” 和 阅读 提供 可 用 的 书籍 。 
基于 拥有 抽象 方法 area0 和 perimeter() 的 Polygon 类 发 展 继 承 层 次 结构 。 实 现 扩 展 自 基 类 的 
Triangle, Quadrilateral, Pentagon, Hexagon 和 Octagon 类 ， 伴 随 着 具有 明显 意义 的 area() 和 





perimeter() 77 3X, [Al Hj SE Hl IsoscelesTriangle, EquilateralTriangle, Rectangle 和 Square 类 ， 
它们 有 适当 的 继承 关系 。 最 后 ， 写 一 个 简单 的 程序 ， 人 允许 用 户 创建 各 种 类 型 的 多 边 形 ， 输 入 
它们 的 几何 尺寸 ， 输 出 面积 和 周 长 。 附 加 功能 : 允许 用 户 通过 指定 顶点 坐标 输入 多 边 形 ， 并 
能 够 测试 两 个 多 边 形 是 否 相 似 。 


扩展 阅读 


对 于 计算 机 科学 与 工程 发 展 的 广泛 概述 ， 请 阅读 《 The Computer Science and Engineering 
Handbook ) P9, XT Therac-25 事件 更 多 的 信息 ， 详 见 Leveson 和 Turner?! 的 文章 。 

有 兴趣 学 习 面 向 对 象 编 程 的 读者 ， 可 以 参考 由 Booch”, Budd’, Liskov 和 Guttag!”" 编写 的 
Po Liskov 和 Guttag 提供 了 关于 抽象 数据 类 型 很 精彩 的 讨论 ，Cardelli 和 Wegner?! 撰写 了 调研 论文 ， 
Demurjian"? 参与 编写 了 《 The Computer Science and Engineering Handbook ) ©! 一 书 的 相关 章节 。 书 
中 描述 的 设计 模式 由 Gamma 等 人 ' 完成 的 。 

重点 介绍 Python 中 面向 对 象 编程 的 图 书包 括 由 Goldwasser 和 Letscher? 编写 的 人 门 书籍 ， 以 及 
由 Phillips?! 编写 的 进 阶 书籍 。 


| 第 3 意 


Data Structures and Algorithms in Python 


算法 分 析 





有 一 个 经 典 的 故事 ， 国 王 委托 著名 的 数学 家 阿 基 米 德 判 断 黄 金 王冠 是 否 如 声称 的 那样 是 
纯 金 的 而 没有 掺 白银 。 当 阿 基 米 德 进入 浴 倪 洗澡 时 ， 他 发 现 了 一 个 解决 方法 。 他 注意 到 ， 自 
已 身体 进入 浴盆 的 体积 与 水 溢出 浴盆 的 数量 成 比例 。 这 给 了 阿 基 米 德 启示 ， 他 立刻 跳出 浴 
贫 ， 赤 裸 着 身体 奔跑 在 大 街 上 大 喊 “ 找 到 了 ! 找到 了 !”。 他 发 现 了 一 个 分 析 工 具 (排水 量 )。 
只 要 用 一 个 简单 的 天 平 ， 就 可 以 判断 国王 的 新 王冠 是 不 是 纯 金 的 。 具 体 做 法 就 是 : 阿 基 米 德 
把 王冠 和 同等 质量 的 黄金 分 别 沉 到 一 碗 水 里 ， 观 察 两 者 的 排水 量 是 否 一 样 。 这 个 发 现 对 金 匠 
来 说 是 不 幸 的 ， 因 为 如 果 阿 基 米 德 进 行 分 析 后 ， 发 现 王冠 溢出 的 水 比 同等 质量 的 纯 金 块 所 海 
出 的 水 多 ， 那 就 意味 着 王冠 不 是 纯 金 的 。 

在 本 书 中 ， 我 们 对 设计 “优秀 ”的 数据 结构 和 算法 感 兴趣 。 简 言 之 ， 数 据 结构 是 组 织 和 访 
问 数据 的 一 种 系统 化 方式 ， 算 法 是 在 有 限 的 时 间 里 一 步 步 执行 某 些 任务 的 过 程 。 这 些 概 念 对 计 
算 极 为 重要 ， 为 了 分 辨 哪些 数据 结构 和 算法 是 “优秀 ”的 ， 我 们 需要 一 些 精确 分 析 算 法 的 方法 。 

我 们 在 本 书 中 用 到 的 主要 分 析 方 法 包括 算法 和 数据 结构 的 运行 时 间 和 空间 利用 表示 。 运 
行 时 间 是 一 个 很 好 的 度量 ， 因 为 时 间 是 宝贵 的 资源 一 一 计算 机 解决 方案 应 该 运行 得 尽 可 能 
快 。 一 般 来 说 ， 一 个 算法 或 数据 结构 操作 的 运行 时 间 随 着 输入 大 小 而 增加 ， 尽 管 它 可 能 对 相 
同 大 小 的 不 同 输入 也 有 所 变化 。 另 外 ， 运 行 时 间 也 受 硬件 环境 (例如 ， 处 理 器 、 时 钟 频率 、 
内 存 、 硬 盘 ) 以 及 算法 实施 和 执行 的 软件 环境 例如， 操作 系统 、 程 序 设 计 语 言 ) 的 影响 。 
当 其 他 所 有 因素 不 变 时 ， 如 果 计 算 机 有 更 快 的 处 理 器 ， 或 者 程序 编译 到 本 机 代码 来 执行 而 不 
是 解释 执行 ， 有 相同 输入 数据 的 相同 算法 的 运行 时 间 会 更 少 。 我 们 将 在 本 章 的 开始 部 分 讨论 
进行 实验 研究 的 工具 ， 并 讨论 将 其 作为 评估 算法 效率 的 一 种 主要 方法 的 局 限 性 。 

要 研究 运行 时 间 这 一 度量 ,要 求 我 们 会 用 一 些 数 学 工具 。 尽 管 可 能 存在 来 自 不 同 环境 因 
素 的 干扰 ， 但 是 我 们 主要 关注 算法 的 运行 时 间 和 其 输入 大 小 的 关系 。 我 们 希望 将 算法 的 运行 
时 间 表 示 为 输入 大 小 的 函数 。 但 是 ， 度 量 它 的 合适 途径 是 什么 ? 在 本 章 中 ,我们 将 自己 动手 
开发 一 种 分 析 算 法 的 数学 方法 。 


3.1 实验 研究 

如 果 算 法 已 经 实现 了 ， 我 们 可 以 通过 在 不 同 的 输入 下 执行 它 并 记录 每 一 次 执行 所 花费 
的 时 间 来 研究 它 的 运行 时 间 。Python 中 一 个 简单 的 实现 方法 是 使 用 time 模块 的 time) 函数 。 
这 个 函数 传递 的 是 自 新 纪元 基准 时 间 后 已 经 过 去 的 秒 数 或 分 数 ( 新 纪元 是 指 1970 年 )。 当 我 
们 可 以 通过 记录 算法 运行 前 的 那 一 刻 以 及 算法 执行 完毕 后 的 那 一 刻 ， 并 且 计 算 它 们 之 间 的 差 
(如 下 所 示 ) 来 判定 消逝 的 时 间 时 ， 新 纪元 的 选择 不 影响 测试 时 间 的 结果 。 

paar oper P # record the starting time 

run algorithm 


end-time = time( ) # record the ending time 
elapsed = end_time — start_time # compute the elapsed time 


在 第 5 章 ， 我 们 将 演示 这 种 方法 的 使 用 ， 即 在 Python list 类 的 效率 上 收集 实验 数据 。 用 
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这 样 的 方法 测量 消逝 的 时 间 很 好 地 反映 了 算法 效率 ， 但 绝 不 意味 着 完美 。time() 函数 的 测量 
是 相对 于 “挂钟 ”的 。 因 为 许多 进程 共享 使 用 计算 机 的 中 央 处 理 器 (CPU)， 所 以 算法 执行 
过 程 花费 的 时 间 依 赖 于 在 作业 执行 时 正 运行 在 计算 机 上 的 其 他 进程 。 一 个 更 公正 的 度量 是 算 
法 使 用 的 CPU 周期 的 数量 。 即 使 用 相同 的 输入 重复 相同 的 算法 可 能 没有 保持 一 致 性 ， 也 要 
使 用 time 模块 的 clock() 函数 ， 并 且 它 的 粒度 依赖 于 计算 机 系统 。Python 包含 了 一 个 更 高 级 
的 模块 (名 叫 timeit)， 它 可 以 自动 地 做 多 次 重复 实验 来 评估 差异 。 

通常 我 们 认为 运行 时 间 依 赖 于 输入 的 大 小 和 结构 ， 所 以 应 该 在 各 种 大 小 的 不 同 测试 输入 
上 执行 独立 实验 。 接 下 来 我 们 可 以 通过 绘制 算法 每 次 运行 的 性 能 图 来 可 视 化 结果 ，x 坐标 表 
示 输 入 大 小 n,y 坐标 表示 运行 时 间 to 图 3-1 显示 了 这 样 的 假设 性 数据 。 这 种 可 视 化 可 以 提 
供 关于 算法 的 问题 大 小 和 执行 时 间 的 直观 描述 。 这 可 用 于 对 实验 数据 做 统计 分 析 ， 以 寻找 符 
合 实验 数据 的 最 好 的 输入 大 小 函数 。 为 了 使 得 分 析 更 有 意义 ， 要 求 选择 好 的 样本 输入 并 且 对 
其 进行 足够 多 次 的 测试 ， 使 算法 运行 时 间 的 统计 更 准确 。 


500 
400 


300 


时 间 /ms 


运行 


0 500 0 000 15 000 


0 1 
输入 大 小 
图 3-1 一 个 算法 运行 时 间 的 实验 研究 结果 。 坐 标 Cn, 1) 中 的 点 表示 对 于 输入 大 小 n 

所 测 出 的 算法 的 运行 时 间 ¢ (ms) 


实验 分 析 的 挑战 

虽然 执行 时 间 的 实验 研究 是 有 用 的 ， 使 用 算法 分 析 有 3 个 主要 的 局 限 性 (尤其 是 在 优化 
生产 质量 代码 时 ): 

o 很 难 直 接 比较 两 个 算法 的 实验 运行 时 间 ， 除 非 实 验 在 相同 的 硬件 和 软件 环境 中 执行 。 

e 实验 只 有 在 有 限 的 一 组 测试 输入 下 才能 完成 ， 因 此 它们 忽略 了 不 包括 在 实验 中 的 输 

入 的 运行 时 间 (这 些 输 入 可 能 是 重要 的 )。 

e 为 了 在 实验 上 执行 算法 来 研究 它 的 执行 时 间 ， 算 法 必须 完全 实现 。 

最 后 一 个 要 求 是 实验 研究 应 用 中 最 严重 的 缺点 。 在 设计 的 初期 ， 当 考虑 数据 结构 或 算法 
的 选择 时 ,花费 大 量 的 时 间 实 现 一 个 显然 低劣 的 算法 是 不 明智 的 。 


进一步 的 实验 分 析 
我 们 的 目标 是 开发 一 种 分 析 算 法 效率 的 方法 : 
1) 在 软 硬 件 环 境 独 立 的 情况 下 ， 在 某 种 程度 上 人 允许 我 们 评价 任意 两 个 算法 的 相对 效率 。 
2 ) 通过 研究 不 需要 实现 的 高 层次 算法 描述 来 执行 算法 。 
3 ) 考虑 所 有 可 能 的 输入 。 
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计算 原子 操作 

为 了 在 没有 执行 实验 时 分 析 一 个 算法 的 执行 时 间 ， 我们 用 一 个 高 层次 的 算法 描述 直接 进 
行 分 析 (可 以 是 真实 的 代码 片段 ， 也 可 以 是 独立 于 语言 的 伪 代 码 )。 我 们 定义 了 一 系列 原子 
操作 ， 如 下 所 示 : 

e 给 对 象 指定 一 个 标识 

e 确定 与 这 个 标识 符 相 关联 的 对 象 

e 执行 算术 运算 (例如 ， 两 个 数 相 加 ) 

© 比较 两 个 数 的 大 小 

e 通过 索引 访问 Python 列表 的 一 个 元 素 

e iH PRA (不 包括 函数 内 的 操作 执行 ) 

© 从 函数 返回 

从 形式 上 说 ,一 个 原子 操作 相当 于 一 个 低级 别 指令 ， 其 执行 时 间 是 常数 。 理 想 情 况 下 ， 
这 可 能 是 被 硬件 执行 的 基本 操作 类 型 ， 尽 管 许多 原子 操作 可 能 被 转换 成 少量 的 指令 。 我 们 并 
不 是 试 着 确定 每 一 个 原子 操作 的 具体 执行 时 间 ， 而 是 简单 地 计算 有 多 少 原子 操作 被 执行 了 ， 
用 数字 1 作为 算法 执行 时 间 的 度量 。 

操作 的 计数 与 特定 计算 机 中 真实 的 运行 时 间 相 关联 ， 每 个 原子 操作 相当 于 固定 数量 的 指 
令 ， 并 且 该 操作 只 有 固定 数量 的 原子 操作 。 这 个 方法 中 的 隐 含 假设 是 不 同 原子 操作 的 运行 时 
间 是 非常 相似 的 。 因 此 算法 执行 的 原子 操作 数 1 与 算法 的 真实 运行 时 间 成 正比 。 

随 着 输入 函数 的 变化 进行 测量 操作 

为 了 获取 一 个 算法 运行 时 间 的 增长 情况 ,我们 把 每 一 个 算法 和 函数 ln) 联系 起 来 ， 其 
中 把 执行 的 原子 操作 的 数量 描述 为 输入 大 小 n 的 函数 f(n)。3.2 节 将 会 介绍 7 个 最 常见 的 函 
数 。3.3 节 将 介绍 一 个 函数 之 间 相 互 比较 的 数学 框架 。 

最 坏 情 况 输入 的 研究 

对 于 相同 大 小 的 输入 ， 算 法 针对 某 些 输入 的 运行 速度 比 其 他 的 更 快 。 因 此 ， 我 们 不 妨 把 
算法 的 运行 时 间 表 示 为 所 有 可 能 的 相同 大 小 输入 的 平均 值 的 函数 。 不 幸 的 是 ， 这 样 的 平均 情 
况 分 析 是 相当 具有 挑战 性 的 。 它 要 求 定义 一 组 输入 的 概率 分 布 ， 这 通常 是 一 个 困难 的 工作 。 
图 3-2 表明 ， 根 据 输入 分 布 ,算法 的 运行 时 间 可 以 在 最 坏 和 最 好 情况 运行 时 间 之 间 的 任何 地 
方 。 例 如 ,假设 实际 上 输入 只 有 “A” 或 “D” 类 型 将 会 怎么 样 ? 


5ms |- 最 坏 情 况 运行 时 间 
Q ms 平均 情况 运行 时 间 ? 
= 
E s 
这 最 好 情况 运行 时 间 


2ms 


Ims 





E F G 


A B € D 
输入 实例 
图 3-2 ”最 好 情况 和 最 坏 情况 运行 时 间 的 不 同 。 每 个 条 柱 代表 一 些 算法 在 不 同 输入 时 的 运行 时 间 
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平均 情况 分 析 通 常 要 求 计算 基于 给 定 输入 分 布 的 预期 运行 时 间 ， 这 通常 涉及 复杂 的 概率 
理论 。 因 此 ， 在 本 书 的 其 余部 分 ， 除 非特 别 指明 ， 一 般 我 们 都 按照 最 坏 情况 把 算法 的 运行 时 
间 表 示 为 输入 大 小 寺 的 函数 。 

最 坏 情 况 分析 比 平均 情况 分 析 容 易 很 多 ， 它 只 需要 有 识别 最 坏 情况 输入 的 能 力 ， 这 通常 
是 很 简单 的 。 另 外 ， 这 个 方法 通常 会 导出 更 好 的 算法 。 算 法 在 最 坏 情况 下 很 好 执行 的 标准 必 
然 是 该 算法 在 每 一 个 输入 情况 都 能 很 好 地 执行 。 也 就 是 说 ， 最 坏 情 况 的 设计 会 使 得 算法 更 加 
健壮 ， 这 很 像 一 个 飞毛腿 总 是 在 斜坡 上 练习 跑步 。 


3.2 ”本 书 使 用 的 7 种 函数 


在 这 一 他， 我们 将 简要 讨论 用 在 算法 分 析 中 最 重要 的 7 种 函数 。 我 们 把 这 7 种 简单 的 函 
数 用 在 本 书 的 几乎 所 有 分 析 中 。 事 实 上 ， 某 些 章节 使 用 的 函数 不 同 于 这 7 种 的 将 会 被 标记 为 
星 号 〈*)， 以 表明 这 是 可 选 的。 除了 这 7 种 基本 的 函数 ， 附 录 B 包含 了 其 他 被 应 用 在 数据 结 
构 和 算法 分 析 中 的 一 系列 有 用 的 数学 定理 。 


3.2.1 常数 函数 


我 们 能 想起 的 最 简单 的 函数 是 常数 函数 。 这 个 函数 是 
Ja) = 

对 一 些 固定 的 常数 c,， 例 如 c=5、c=7 或 c= 2"。 也 就 是 说 ， 对 任意 参数 2， 常数 函数 An) 
的 值 都 是 c。 换 言 之 ,nn 的 值 是 什么 并 不 重要 ，fln) 总 是 为 定 值 c。 

我 们 对 整数 函数 最 感 兴趣 ， 因 此 最 基本 的 常数 函数 是 g(n) = 1， 这 是 用 在 本 书 中 最 经 
典 的 常数 函数 。 注 意 ， 任 何其 他 的 函数 J(n) = c 都 可 以 被 写成 常数 c 乘 以 g(n), Bü f(m) = 
cg(n)o 

正 因为 常数 函数 简单 ， 所 以 它 在 算法 分 析 中 是 很 有 用 的 ， 它 描述 了 在 计算 机 上 需要 做 的 
基本 操作 的 步 数 ， 例 如 两 个 数 相 加 、 给 一 些 变量 赋值 或 者 比较 两 个 数 的 大 小 。 


3.2.2 ”对 数 函 数 


数据 结构 和 算法 分 析 中 令 人 感 兴趣 甚至 惊奇 的 是 无 处 不 在 的 对 数 函 数 ，Kza) = logan, % 
数 b>1。 此 函数 定义 如 下 : 

X=logsn 当 且 仅 当 b*=n 
按照 定义 ，logsl = 0. b 是 对 数 的 底数 。 

在 计算 机 科学 中 ， 对 数 函 数 最 常见 的 底数 是 2， 因为 计算 机 存储 整数 采用 二 进 制 ， 并 且 
许多 算法 中 的 常见 操作 是 反复 把 一 个 输入 分 成 两 半 。 事 实 上 ， 这 个 底数 相当 常见 ， 以 至 于 当 
底数 等 于 2 时 ， 我 们 通常 会 省 略 它 的 符号 ， 即 

log n = log; n 
大 多 数 手持 计算 器 上 有 一 个 标记 为 LOG 的 按钮 ， 但 这 通常 是 计算 以 底数 为 10 的 对 数 ， 而 不 
是 底数 为 2 的 对 数 。 

对 任意 整数 n， 准 确 计 算 对 数 函 数 涉及 微 积分 的 应 用 ,但 是 我 们 可 以 利用 近似 值 来 足 
够 好 地 实现 这 一 目的 。 特 别 是 ,我 们 可 以 很 容易 地 计算 大 于 等 于 log, n 的 最 小 整数 ( 即 向 
上 取 整 ,| logs n 1)。 对 正 整 数 n， 用 n 除 以 bp， 只 有 当 结 果 小 于 等 于 1 时 才 停 止 除法 操作 ， 
| log, n | 的 值 即 为 n 除 以 5 的 次 数 。 例 如 ,「 log3 27 1 等 于 3， 因 为 (27/3)/3)/3 = 1。 同 样 ， 








[logs 64 | 等 于 3， 因 为 ((64/4)/4)/4 = 1， 并 且 [10g 121 是 4， 因 为 (((12/2)/2)/2)/2 = 0.75 < 1。 

对 于 大 于 1 的 底数 ， 接 下 来 的 命题 描述 了 对 数 的 几 个 重要 特性 。 

命题 3-1 ( 对 数 规则 ): 给 定 实数 wa> 0,p>1l,c>0,d>1， 有 : 

1 ) logs(ac) = log, a + log; c 

2 ) logi(a/c) = logs a — logs c 

3) logs(a‘) = c logy a 

4 ) log, a = loga a/loga b 

5) pied? = alogab 

按照 惯例 ， 没 有 括号 的 符号 log n 48 log(n) 的 值 。 我 们 用 简写 符号 logn 表示 (log n), 
在 (log n) 中 对 数 的 结果 以 窜 级 增 大 。 

上 面 的 特性 可 以 推导 出 取 索 的 相反 规则 ， 这 将 在 本 节 后 面 给 出 。 我 们 用 一 些 例子 描述 这 
些 特性 。 

例题 3-2 : 我 们 用 示例 演示 一 下 命题 3-1 提 到 的 算法 规则 (按照 惯例 ， 对 数 的 底 若 省 略 
了 ， 底 数 即 为 2 )。 

e log(2n)=1log2+logn=1+logn， 由 对 数 规则 1 得 出 。 

e log(n/2) = logn-log2=logn—1, WSL) 2 得 出 。 
e log? = 3logn， 由 对 数 规则 3 得 出 。 
e 
e 
e 





log 2"=nlog2=n:1=n， 由 对 数 规则 3 得 出 。 
log. n = (log n)/log 4 = (log n)/2， 由 对 数 规则 4 得 出 。 
208" = nl82= pn!l=n， 由 对 数 规则 5 得 出 。 
作为 一 个 实际 问题 ， 对 数 规则 4 给 出 了 用 计算 器 上 以 10 为 底 的 对 数 按钮 (LOG) Kit 
算 以 2 为 底 的 对 数 的 方法 ， 即 
log» n = LOG n/LOG 2 


3.2.8 ”线性 函数 


男 一 个 简单 却 很 重要 的 函数 是 线性 函数 ， 
f(n) -n 
即 ， 给 定 输入 值 n, Bote PRBS UE n ASE 
这 个 函数 出 现在 我 们 必须 对 所 有 n 个 元 素 做 基本 操作 的 算法 分 析 的 任何 时 间 。 例 如 ， 比 
较 数 字 x 与 大 小 为 n 的 序列 中 的 每 一 个 元 素 ， 需要 做 n 次 比较 。 线 性 函数 也 实现 了 用 任何 
算法 处 理 不 在 计算 机 内 存 中 的 个 对 象 的 最 快运 行 时 间 ， 因 为 读 n 个 对 象 已 经 需要 nn 次 操 
作 了 。 


3.24 nlog n 函数 


接 下 来 要 讨论 的 函数 是 n log n BH, 
f(n)=nlogn 
对 于 一 个 输入 值 nx， 这 个 函数 是 倍 的 以 2 为 底 的 n 的 对 数 。 这 个 函数 的 增长 速度 比 线 
性 函数 快 ， 比 二 次 函数 慢 。 因 此 ， 与 运行 时 间 是 二 次 的 算法 相 比较 ， 我 们 更 喜欢 运行 时 间 与 
n log n 成 比例 的 算法 。 我 们 会 看 到 一 些 运行 时 间 与 n log n 成 比例 的 重要 算法 。 例 如 ,对 
个 任意 数 进行 排序 且 运 行 时 间 与 n log n 成 比例 的 最 快 可 能 算法 。 


3.2.5 ”二 次 函数 
另 一 个 经 常 出 现在 算法 分 析 中 的 函数 是 二 次 函数 ， 


f(n) = 并 

即 ， 给 定 输 入 值 n， 函 数 f 的 值 为 n 与 自身 的 乘积 ( 即 “n 的 平方 ” )。 

二 次 函数 用 在 算法 分 析 中 的 主要 原因 是 ,许多 算法 中 都 有 髓 套 循环 ， 其 中 内 存 循环 执行 
一 个 线性 操作 数 ， 外 层 循环 则 表示 执行 线性 操作 数 的 次 数 。 因 此 ， 在 这 个 情况 下 ， 算 法 执行 
fn*:n-2m^HME, 

EE fS IURI — RAM 

=k PA BC n] fe HL BUE CES UR VP, GE MURIS EPR EBON 1, BZA 2, 
第 三 次 为 3， 等 等 。 即 操作 数 为 

]*29*345-(n-2)9t(n—1)t8 

换言之 ， 如 果 内 层 循环 的 操作 数 随 外 层 循环 的 每 次 迭代 逐次 加 1, 3x PRB ARS CES UR Y 
总 的 操作 数 。 这 个 数量 也 有 一 个 有 趣 的 典故 。 

1787 年 ， 一 个 德国 教师 让 9 ~ 10 岁 大 的 小 学 生计 算 从 1 ~ 100 所 有 整数 之 和 。 立 刻 有 
一 个 孩子 说 自己 已 经 有 答案 了 ! 老师 很 怀疑 ， 因 为 这 个 孩子 的 答题 板 上 只 有 一 个 答案 。 但 
是 ， 他 的 答案 5050 却 是 正确 的 。 这 个 孩子 长 大 后 成 了 那个 时 代 最 伟大 的 数学 家 之 一 ， 他 就 
是 卡尔 高 斯 。 我 们 推测 年 轻 的 高 斯 用 了 下 面 的 恒等式 。 

命题 3-3: 对 于 任何 一 个 整数 n 三 1， 我 们 有 : 
n(n+ 1) 
] -243-*-(n-2)t(n-l)tn-——— 


图 3-3 中 所 示 即 为 命题 3-3 的 两 个 “可 视 化 ”的 证 明 。 





图 3-3 命题 3-3 的 可 视 化 的 证 明 。 通 过 n 个 单位 宽度 并 且 高 度 分 别 为 1, 2, …, n 的 矩形 的 总 面积 ， 两 
个 分 图 都 可 视 化 了 上 述 的 等 式 。 在 图 3-3a 中 ， 这 些 和 矩形 被 表示 成 一 个 面积 为 n*n/2 的 大 三 角 
JÉ ORA n, BA n) 加 上 个 面积 1/2 为 的 小 三 角形 ( 底 为 1、 高 为 1)。 在 图 3-3b 中 ， 这 仅 
适用 于 当 为 偶数 的 情形 ， 所 述 和 矩形 被 表示 成 一 个 底 为 n/2、 高 为 n+ 1 的 大 矩形 


从 命题 3-3 得 到 的 结论 是 ， 如 果 我 们 执行 一 个 含有 藤 套 循环 的 算法 ， 那 么 在 内 循环 中 每 
次 增加 一 个 操作 ,执行 外 循环 时 操作 的 总 数 是 n 的 平方 。 更 确切 地 说 ,操作 的 总 数 是 n*n/2 + 
n/2， 所 以 与 一 个 在 内 循环 执行 时 每 次 使 用 个 操作 的 算法 相 比 ， 这 仪 仅 是 这 个 算法 操作 总 
数 的 一 半 多 一 些 。 但 增长 的 阶 数 仍然 是 n 的 平方 。 
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3.2.6 三 次 函数 和 其 他 多 项 式 


继续 我 们 对 函数 输入 能 力 的 讨论 ， 我 们 考虑 三 次 函数 (cubic function) 
f(n) =n’ 

这 个 函数 分 配 一 个 输入 值 n， 可 以 得 到 的 三 次 方 这 样 一 个 输出 。 与 前 面 提 到 的 常数 函数 、 
线性 函数 和 平方 函数 相 比 ， 这 个 函数 在 算法 分 析 文 章 中 出 现 的 频率 较 低 ， 但 它 确 实 会 时 不 时 
地 出 现 。 

多 项 式 

到 目前 为 止 ， 我 们 已 经 列 出 的 大 多 数 函 数 可 以 看 作 一 个 更 大 的 类 函数 (多项式) 的 一 部 
分 。 一 个 多 项 式 函 数 有 如 下 的 形式 ， 

f(n) = aot ayn + apn? + ayn? + +++ + aan! 

其 中 ao a, …, az 都 是 常数 ， 称 为 多 项 式 的 系数 ， 并 且 整 数 dg 表示 多 项 式 中 的 最 高 寡 次 ， 称 
为 多 项 式 的 次 数 。 

例如 ， 下 列 所 有 函数 都 是 多 项 式 : 

e fl(n)=2+5n+nm 

e f(n-1«m 

e f(n)-1 

e f(n)-n 

e fln)=n 

因此 ， 我 们 可 能 会 质疑 ， 在 用 于 算法 分 析 时 本 书 仅仅 提出 了 4 个 重要 的 函数 ， 但 之 所 以 
我 们 坚持 说 有 7 个 函数 ， 那 是 因 常量 函数 、 线 性 函数 和 二 次 函数 太 重 要 而 不 能 与 其 他 多 项 式 
放 在 一 起 。 而 且 较 小 次 数 的 多 项 式 的 运行 时 间 一 般 比 较 大 次 数 的 多 项 式 的 运行 时 间 要 好 。 

求 和 

在 数据 结构 和 算法 的 分 析 中 一 次 又 一 次 出 现 的 表示 法 就 是 求 和 ， 其 定义 如 下 : 

DS) = f(a)* f(a*1)* f(a*2)*-- f(b) 

其 中 a 和 4 都 是 整数 ， 并 且 a < b。 之 所 以 出 现在 数据 结构 与 算法 分 析 中 ， 是 因为 循环 的 运 
行 时 间 自 然 会 引起 求 和 。 

使 用 求 和 ， 我 们 可 以 把 命题 3-3 的 公式 改写 为 


Yi | n(n+1) 
i=l 2 


同样 ， 我 们 可 以 写 一 个 系数 为 no, …, as 次 数 为 4 的 多 项 式 为 
fio) Yap 
如 此 一 来 ， 求 和 符号 就 为 我 们 表达 越 来 越 多 项 的 和 提供 一 种 简便 方法 ， 其 中 这 些 项 都 是 规则 
的 结构 。 
3.2.7 ”指数 函数 


用 在 算法 分 析 中 的 另 一 个 函数 是 指数 函数 ， 
Jn) = b 
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其 中 是 一 个 正 的 常数 ， 称 为 底 ， 参 数 岂 是 指数 。 也 就 是 说 ， 函 数 fln) 分 配给 输入 参数 的 
值 是 通过 底数 5b 乘 以 它 自己 n 次 获得 的 。 考 虑 到 对 数 函 数 的 情况 ， 在 算法 分 析 中 ， 指 数 函数 
最 基本 的 情况 是 5 = 2。 例如， 含有 nn 位 的 整数 字 可 以 表示 小 于 2 的 所 有 非 负 整 数 。 如 果 通 
过 执行 一 个 操作 开始 一 个 循环 ， 然 后 每 次 迭代 所 执行 的 操作 数目 翻 倍 ， 则 在 第 次 迭代 所 执 
行 的 操作 数目 为 2"。 

然而 ,我 们 有 时 会 有 除了 n 的 其 他 指数 ， 因 此 ， 对 于 我 们 来 说 知道 一 些 便捷 的 处 理 指数 
的 规则 是 有 用 的 。 以 下 这 些 指数 规则 是 相当 有 帮助 的 。 

命题 3-4 (指数 规则 ): 对 于 给 定 正 整 数 a、b 和 c， RAMA 

1 ) (b^ = pe 

2) Fe p. 

3) Baar 

例如 ， 我 们 有 以 下 例子 : 

e 256 = 16:= (25 = 242= 28= 256 (指数 规则 1 ) 

e 243 =35=32+3= 3233= 9*27 = 243 (指数 规则 2 ) 

10 

-29524= 16 (指数 规则 3 ) 

如 下 所 述 ， 我 们 可 以 把 指数 函数 扩展 到 指数 是 分 数 和 实数 的 情况 或 者 负 指数 的 情况 。 给 出 
一 个 正 整 数 大 我 们 定义 愉 为 恬 的 大 次 根 ， 即 存在 一 个 数 r*， 使 得 站 = b. 例如 2 和 = 5， 即 宁 = 
25。 同 样 ，27* =3，161 2。 通过 指数 规则 1， 这 种 方法 允许 我 们 定义 任意 次 寡 的 指数 大 -= (y 
该 指数 可 以 表示 为 一 个 分 数 ， 例 如 ，92 = (993 = 7292 = 27。 因 此 ， 刀 实际 上 正 是 整数 指数 D^ 
的 c 次 根 。 

我 们 可 以 进一步 把 指数 函数 8* 扩 展 到 参数 为 任意 实数 x 的 指数 ， 通 过 计算 一 系列 形 为 


bs 的 值 ， 分 数 < 逐 渐 得 到 越 来 越 接近 x 的 值 。 任 意 一 个 实数 x 可 以 通过 分 数 来 实现 任意 程度 


e 16= 


的 近似 ， 因此， 我 们 可 以 用 分 数 S 作 为 b 的 指数 来 任意 程度 地 接近 指数 六 。 例 如 ， 数 2 是 一 
个 很 好 的 定义 。 最 后 ， 给 定 一 个 负 指数 4， 我 们 定义 b = 产 ?， 这 对 应 于 指数 规则 3， 其 中 4 


m T ual ok 
=0Alc= d, 例如 , g^ 23 8° 
几何 求 和 
假设 有 一 个 循环 ， 它 的 每 次 迭代 需要 一 个 比 前 一 个 更 长 时 间 的 乘法 因子 。 那 么 这 个 循环 
可 以 使 用 下 列 命题 进行 分 析 。 
命题 3-5. 对 于 任意 整数 hn > 0 和 任意 实数 a， 比 如 a>0 和 a 关 1]， 考 虑 下 述 的 和 
ya ET 
i=0 
( 记 住 如 果 aw>0， 那 么 四 =1。) 这 个 总 和 等 于 
q'*i-] 
a-1 


命题 3-5 所 示 的 求 和 被 称 为 几何 求 和 ， 因 为 如 果 a > 1， 在 几何 规模 上 每 一 项 都 比 它 的 
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前 一 项 大 。 例 如 ， 从 事 计算 工作 的 每 个 人 都 应 该 知道 
145244484: 42"! 227-] 
因为 这 是 在 二 进 制 表 示 法 中 使 用 位 可 以 表示 的 最 大 整数 。 


3.2.8 比较 增长 率 
综 上 所 述 ， 按 顺序 给 出 的 算法 分 析 使 用 的 7 个 常用 函数 如 表 3-1 所 示 。 
表 3-1 ”函数 的 类 型 (这 里 我 们 假设 a» 1 并 且 是 一 个 常数 ) 


CETT ro 
[ms | » [ls | A | * [| * 





理想 情况 下 ， 我 们 希望 数据 结构 的 操作 运行 时 间 与 常数 函数 或 者 对 数 函 数 成 正比 ， 而 
且 我 们 希望 算法 以 线性 函数 或 n log n 函数 来 运行 。 运 行 时 间 为 二 次 或 者 三 次 的 算法 不 太 实 
用 ， 除 最 小 输入 规模 的 情况 外 ， 运 行 时 间 为 指数 的 算法 是 不 可 行 的 。7 个 函数 的 增长 率 如 
图 3-4 所 示 。 




















fin 











10" 10' 10? 10? 10* 105 106 10? 10* 10° 10" 10" I0"? 10" 10' 10's 
图 3-4 在 算法 分 析 中 使 用 的 7 个 基本 函数 的 增长 率 。 对 于 指数 函数 我 们 用 底 a = 2 的 函数 表示 。 这 些 
函数 绘制 在 双 对 数 图 上 ， 主 要 是 通过 图 形 的 坡度 来 比较 增长 率 。 即 使 如 此 ， 指 数 函 数 因 增长 
过 快 而 不 能 在 图 表 上 显示 其 所 有 值 


向 下 取 整 和 向 上 取 整 函数 

以 上 函数 还 有 一 个 方面 要 额外 考虑 。 在 讨论 到 对 数 时 我 们 指出 ， 对 数 的 值 通常 不 
是 一 个 整数 ， 然 而 一 个 算法 的 运行 时 间 通 常 是 通过 一 个 整数 来 表示 的 ， 比 如 操作 的 数 
量 。 因 此 ， 一 个 算法 的 分 析 有 时 可 能 涉及 向 下 取 整 和 向 上 取 整 郴 数 的 使 用 ， 它 们 分 别 定义 
如 下 : 

e [x|- 小 于 或 者 等 于 x 的 最 大 整数 。 

e [x] = 大 于 或 者 等 于 x 的 最 小 整数 。 


3.3 Wk 

在 算法 分 析 中 ， 我 们 重点 研究 运行 时 间 的 增长 率 ， 采 用 宏观 方法 把 运行 时 间 视 为 输入 大 
小 为 n 的 函数 。 例 如 ， 通常 只 要 知道 算法 的 运行 时 间 为 按 比 例 增长 到 就 足够 了 。 

我 们 用 函数 的 数学 符号 (不 考虑 那些 不 变 因子 ) 来 分 析 算 法 。 换 句 话 说 ,我 们 这 样 用 函 


数 描述 算法 的 运行 时 间 : 输入 一 个 n 值 ， 对 应 输出 一 个 数据 ， 用 这 个 数据 来 反映 决定 关于 
的 增长 率 的 主要 因素 。 这 种 方法 表明 : 在 伪 代 码 描述 或 高 级 语言 执行 的 每 一 个 基本 步 又 中 可 
以 用 几 个 微 指令 来 描述 。 因 此 ， 我 们 能 够 通过 估计 执行 不 变 因 子 的 微 指令 的 个 数 来 执行 算法 
分 析 ， 而 不 必 再 苦恼 于 在 特定 语言 或 者 特定 硬件 下 分 析 执 行 在 计算 机 上 的 操作 的 精准 个 数 。 

作为 一 个 实际 的 例子 ， 我 们 再 来 回想 一 下 1.4.2 节 中 在 Python 列表 中 寻找 最 大 数 的 要 
求 。 如 代码 段 3-1 所 示 ， 在 介绍 循环 时 ， 第 一 次 引入 了 这 个 例子 来 表示 一 个 找 列表 中 最 大 值 
的 函数 。 


代码 段 3-1 返回 Python 列表 最 大 值 的 函数 
def find max(data): 


1 

2  """Return the maximum element from a nonempty Python list." "" 

3 biggest — data[0] # The initial value to beat 

4 for val in data: # For each value: 

5 if val > biggest # if it is greater than the best so far, 
6 biggest = val # we have found a new best (so far) 
7 | return biggest # When loop ends, biggest is the max 


这 是 运行 时 间 按 比例 增长 到 m 这 种 算法 的 一 个 经 典 例子 ， 当 循环 中 的 每 一 个 数据 元 素 执 
行 一 次 时 ,一 些 相应 数量 的 微 指令 也 在 这 个 过 程 中 执行 了 一 次 。 在 本 节 的 末尾 ,我们 提供 了 
一 个 框架 来 规范 这 个 声明 。 


3.3.1 KOS 





S f(n) fI g(n) 作为 正 实数 映射 正 整 数 = 
的 函数 。 如 果 有 实 型 常量 c > 0 和 整 型 常量 n 
n 三 1 满足 

fln) < cg(n), n= nm 

我 们 就 说 fl(n) 是 O(g(n))。 i 

这 种 定义 就 是 通常 说 的 大 O 符 号 ， 因 的 输入 大 小 
为 它 有 时 被 说 成 “fln) 是 g(n) 的 大 0”。 图 图 3-5 解释 大 OO 符号。 当 n mht, AA fn) < 
3-5 展示 了 一 般 的 定义 。 i c+ g(n)， 所 以 函数 ftn) 是 O(g(n)) 


例题 3-6: 函数 8n+ 5X O(n). 

WEAR: 通过 大 O 的 定义 ,我 们 需要 找到 一 个 实 型 常量 c > 0 和 一 个 整 型 常量 m S 1, X 
于 任意 一 个 整数 n > nb， 满足 8n + 5 < cn。 很 容易 找到 一 个 可 能 的 选择 ; c = 9，no = 5。 当 
R, 这 是 无 限 种 可 选择 组 合 中 的 一 个 ， 因 为 在 c 和 mm 之 间 有 一 个 权衡 。 比 如 说 ， 我 们 能 够 
设 定常 数 c= 13, no= 1。 mH 

XO 符号 的 含义 是 : 当 给 定 一 个 常数 因子 且 在 渐 近 意义 上 半 趋 于 无 穷 时 ， 函 数 (n). "7 
于 或 等 于 ”函数 g(n)。 这 种 思想 来 源 于 这 样 一 个 事实 从 渐 近 的 角度 来 说 ， 当 n 二 no WY, Bl 
定 用 “<” 来 比较 ftn) 和 g(n) 与 一 个 常数 的 乘积 。 然 而 ， 如 果 说 “fln) < O(g(n))” 未 免 显 
得 不 合适 ， 因 为 大 O 已 经 有 “小 于 或 等 于 ”的 意思 。 同 样 ， 如 果 用 “ =” 关系 的 一 般 理解 来 
Bi, "f(n) < O(g(n))” 也 不 完全 正确 ， 尽 管 这 很 常见 ， 因 为 没 办 法 说 明白 “ O(g(n)) = f(n)" 
这 种 对 称 语句 。 最 好 是 说 





Kn) 是 O(g(n)) 
或 者 ,我 们 可 以 说 “fln) 是 g(n) 的 量 级 ”。 如 果 用 更 倾向 于 数学 的 语言 ， 这 样 说 也 是 正确 的 : 
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“ fin) € O(g(n))”, MEARE, X 0 符号 代表 多 个 函数 的 集合 。 在 本 书 中 ， 我 们 仍 将 大 O 
声明 为 “fln) 是 O(g(n))”。 即 使 这 样 解释 ， 我 们 在 如 何 使 用 大 O 符号 参与 算术 运算 上 仍 有 
相当 大 的 自由 ， 以 及 由 这 种 自由 所 带 来 的 一 定 的 责任 。 

使 用 大 O 符号 描述 运行 时 间 

通过 设 定 一 些 参 数 n， 大 0 符号 被 广泛 用 于 描述 运行 时 间 和 空间 界限 ， 虽 然 参数 的 设 定 
依据 问题 的 不 同 而 有 所 不 同 , 但 (大 0 符号 ) 仍 是 一 种 测量 问题 “尺寸 ”的 可 选择 的 方法 。 
例如 ,假如 我 们 对 在 一 个 序列 中 找 最 大 数 感 兴趣 ， 当 使 用 找 最 大 数 算法 时 ， 我 们 应 该 用 nn 表 
示 这 个 集合 中 元 素 的 个 数 。 运 用 大 0 符号 ， 我 们 能够 为 任意 一 台 计 算 机 写 出 关于 找 最 大 数 
算法 (代码 段 3-1 ) 的 运行 时 间 的 数学 化 的 精准 语句 。 

命题 3-7. 找 最 大 数 算法 ( 即 计算 一 系列 数 中 的 最 大 数 ) 的 运行 时 间 为 O(n). 

证 明 : 在 循环 开始 之 前 初始 化 时 ， 仅 仅 需 要 固定 数量 的 基本 操作 。 循 环 的 每 一 次 重复 也 
仅仅 需要 固定 的 基本 操作 ， 并 且 循 环 执行 n 次。 因此 ， 我们 可 以 通过 选择 适当 的 常数 c' 和 
c" (这 两 个 常数 在 初始 化 和 循环 体 中 能 分 别 反 应 执行 状况 )， 就 可 计算 出 基本 操作 的 数量 ， 即 
c' 十 c"。 因 为 每 一 个 基本 操作 的 运行 时 间 是 固定 的 ， 我 们 可 以 通过 输入 一 个 n 值 来 计算 找 最 
大 数 算法 的 运行 时 间 ， 运 行 时 间 最 多 也 就 是 一 个 常数 乘 以 n. 所 以 ， 我 们 得 出 结论 ， 找 最 大 
数 算法 的 运行 时 间 为 O(n)。 m 

XO 符号 的 一 些 性 质 

大 0 符号 使 得 我 们 忽视 常量 因子 和 低 阶 项 ， 转 而 关注 函数 中 影响 增长 的 主要 成 分 。 

例题 3-8: 5n*— 3:5? - 2n +4n+1 € O(n’), 

WEBB: EXE, 555-35 +2 + 4n4+1 < (5+3+2+4+1) =c, c-15, nz n-l 
时 即 满足 题 意 。 gm 

FKE, RMA TE TRI Ze SK RY KER, 

命题 3-9: 如 果 fl(n) 是 一 个 指数 为 dq 的 多 项 式 ， 即 


f(n) = ay + ain + ++ + agn" 





且 ar>0， 则 f(n) 是 O(n’). 

WEBB: 注意 ， 当 nn 三 1 时 , RAIL mnmemx- xn. 因此 ， 

ay + ayn + ann? +++ + aa? < (Jao| + |a| + |ar| + +|a)n’ 

4 c-|ae| * |ai| * |az| + * |aa], no=1, BITH A(n) 是 O(n). m 

因此 ， 多 项 式 中 的 最 高 阶 项 决定 了 该 多 项 式 的 渐 近 增长 速率 。 在 练习 中 ， 我 们 考虑 
大 0 符号 另外 一 些 性 质 。 接 下 来 让 我 们 来 进一步 考虑 一 些 例 子 ， 这 些 例 子 主要 集中 在 用 于 
算法 设计 中 的 7 个 基本 函数 的 结合 上 。 我 们 依据 当 n 宇 1 时, log n < nn 这 样 的 一 个 数学 
定理 。 

例题 3-10: 57° +3n logn 2n 5 XX O(n’). 

WEBB: 57+ 3nlogn+2n+5 € (5-3-2-5)p)!-cm, 4 c-15, “4n > m=1 h} (W 


足 题 意 )。 EJ 
例题 3-11: 205? + 10n log n - 5 是 O(n’), 
WEBB: 4 n m DH[, 20n°+10n logn+5 < 35r, Ej 


例题 3-12: 3 logn+2 X O(log n). 
证 明 : 4n 2 2H}, 3 logn+2<5 log n。 注 意 ， 当 n= 1 时 ,log n = 0。 这 就 是 为 何 
在 此 处 用 n = no = 2。 im 





例题 3-13: 2"'* 是 0(2”)。 


WEAR: 2 =2” :22=4.2; 因此 ， 这 种 情况 下 我 们 令 c=4，m= 1。 a 
例题 3-14: 2n + 100 log n Æ O(n), 

证 明 : “Gn zno-l1Hf, 2n+100logn < 1027; AI, ERIA c= 102. e 
用 最 简单 的 术语 描述 函数 


总 的 来 说 ， 我 们 应 该 用 大 0 符号 尽 可 能 接近 地 描述 函数 。 虽 然 函 数 f(n) = 4n + 3m 是 
O(n?) RAE AE O(n"), 但 说 ftn) 是 Om) 更 精确 。 通 过 类 比 考虑 一 个 场景 : 

一 位 饥饿 的 旅行 者 在 一 条 漫长 的 乡村 小 路 开车 ， 突 然 遇 到 一 位 刚 从 集 市 回 家 的 农民 。 假 
设 旅行 者 问 农民 自己 还 要 开 多 久 才 能 找到 食物 ， 虽然 农民 回答 “当然 不 会 再 超过 12 个 小 时 ” 
也 是 对 的 ， 但 告诉 旅行 者 “ 沿 着 这 条 路 再 行驶 几 分 钟 就 会 看 到 一 个 超市 ” 却 更 精确 ( 且 更 有 
用 )。 因 此 ， 即 便 是 使 用 大 O 符号， 我 们 仍然 需要 尽 可 能 地 还 原 整个 真相 。 

如 果 在 大 O 符号 里 使 用 常数 因子 和 低 阶 项 ， 也 会 被 认为 不 得 体 。 例 如 ， 函 数 2m 是 
O(4n’ + 6nlogn), 尽管 说 法 完全 正确 ， 但 却 不 常用 。 我 们 应 尽力 用 最 简单 的 术语 来 描述 函数 。 

3.2 节 列 举 的 7 个 函数 最 常 和 大 O 符号 结合 起 来 描述 算法 的 运行 时 间 和 空间 使 用 情况 。 
事实 上 ,我 们 通常 用 函数 的 名 称 来 引用 其 所 描述 的 算法 的 运行 时 间 。 因 此 ,例如 ,我 们 可 以 
说 以 O(m) 运行 的 二 次 算法 的 最 坏 运行 时 间 为 4n? + n log 2。 同 样 ， 若 一 个 算法 运行 时 间 最 
大 为 5n + 20 log n +4， 则 这 样 的 算法 被 称 为 线性 算法 。 

XQ 

正如 大 O 提供 了 一 种 渐 近 说 法 : 一 个 函数 的 增长 速率 “小 于 或 等 于 ” 男 一 个 函数 ， 接 
下 来 的 符号 提供 了 另 一 种 渐 近 说 法 : 一 个 函数 的 增长 速率 “大 于 或 等 于 ” 男 一 个 阴 数 。 

X f(n) 和 g(n) 为 正 实数 映射 正 整 数 的 函数 ， 如 果 g(n) 是 O(f(n))， 即 存在 实 常 数 c> 0 
和 整 型 常数 no > 1 满足 

fn) > cg(n), SnznjH, 

我 们 就 说 fl(n) 是 O(g(n)), 表述 为 “fln) 是 g(n) 的 大 Q ”。 这 个 定义 允许 我 们 采用 渐 近 的 说 
法 : 当 给 定 一 个 常数 因子 时 ， 一 个 函数 大 于 或 等 于 另 一 个 函数 。 

例题 3-15: 3nlogn 2n X O(n log n). 

证 明 : 23458 2 2Hf, 3n logn- - 2n nlog n + 2n(log n - 1) > n logn, Alt, ， 此 时 我 们 
令 c=1, m=2。 E 

Xe 

此 外 ， 有 一 个 符号 允许 我 们 说 : 当 给 定 一 个 常数 因子 时 ， 两 个 函数 的 增长 速率 相同 。 如 
R f(n) 是 O(g(n)), A f(n) 是 Q(g(n))， 即 存在 实 常数 c'>0、c”"> 0 和 一 个 整 型 常数 no 二 1 
满足 

c'g(n) < f(n) < c"g(n, X nznjH, 

我 们 就 说 f(n) 是 O(g(n)), FIBA “f(n) Æ gm MEX 9". 

例题 3-16: 3n log n+ 4n +5 log n X O(n log n). 

证 明 : 4 n > 2H}, 3n logn < 3n logn + 4n +5 logn < (3+4 + 5)n log n; a 


3.3.2 ”比较 分 析 


假设 有 两 个 算法 都 能 解决 同一 个 问题 : 一 个 算法 A， 其 运行 时 间 为 O(n) ; 另 一 个 算法 
B， 其 运行 时 间 O(n)。 哪 一 个 算法 更 好 呢 ? 我 们 知道 n 是 O(n)， 这 就 意味 着 算法 A 比 算法 
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B 更 具有 渐 近 性 ， 虽 然 当 的 值 较 小 时 ， 算 法 B 的 运行 时 间 可 能 低 于 A。 

我 们 使 用 大 O 符号 依据 渐 近 增长 率 来 为 水 数 排序 。 在 下 面 的 序列 中 ,我们 将 7 个 函数 
按 升 序 排序 ， 即 ,假如 函数 ln) 在 函数 g(n) CHT, ABA f(n) 就 是 O(g(n)): 1, logn, n, n 
logi. m, 2, 2". 


我 们 举例 说 明 一 下 表 3-2 中 7 个 函数 的 增长 速率 (也 可 以 参考 3.2.1 节 的 图 3-4 )。 


表 3-2 ”从 基本 函数 的 算法 分 析 中 选择 的 值 














512 256 
16 4 16 64 256 4 096 65 536 
32 5 32 160 1 024 32 768 4 294 967 296 
64 6 64 384 4 096 262 144 1.84 x 10" 
128 7 128 896 16 384 2 097 152 3.40 x 10% 
256 8 256 2 048 65 536 16 777 216 1.15x 107 
9 262 144 134 217 728 1.34 x 10 





在 表 3-3 中 ,我 们 进一步 举例 说 明 渐 近 观点 的 重要 性 。 该 表 探 讨 了 允许 一 个 输入 实例 的 
最 大 值 ， 该 实例 由 某 个 算法 分 别 运 行 在 1 秒 、1 分 钟 和 1 小 时 的 时 候 产生 。 该 表 显示 了 一 个 
好 的 算法 设计 的 重要 性 :缓慢 渐 近 算法 由 于 运行 时 间 长 从 而 被 快速 渐 近 算法 所 击败 ， 尽 管 党 
数 因子 对 于 快速 渐 近 算法 而 言 可 能 更 糟 。 


表 3-3 ”对 于 以 微 秒 为 单位 的 不 同 运行 时 间 ， 一 个 问题 分 别 在 1 秒 、1 分 钟 和 1 小 时 所 
能 解决 的 最 大 问题 量 
运行 时 间 (us) — € 
1 second 1 minute 1 hour 
400n 2 500 150 000 9 000 000 
2n 707 5477 42 426 
2" 19 25 31 





然而 ， 好 的 算法 设计 的 重要 性 不 仅仅 是 在 一 台 给 定 的 计算 机 上 高 效 地 解决 问题 。 如 
表 3-4 所 示 ， 即 使 硬件 更 新 速度 飞快 ， 我 们 仍 不 能 克服 一 个 缓慢 渐 近 算法 的 弊端 。 假 设 给 定 
运行 时 间 的 算法 运行 在 比 以 往 计 算 机 快 256 倍 的 计算 机 上 ， 该 表 给 出 了 在 任意 的 常量 时 间 所 
能 解决 的 最 大 问题 量 。 


表 3-4 在 固定 的 时 间 ， 利 用 一 台 比 以 往 计算 机 快 256 们 的 计算 机 ，( 显示 出 ) 新 的 可 供 
解决 的 最 大 问题 量 。 每 一 个 条 目 都 是 一 个 先前 m aH BW 
运行 时 间 (us) 新 的 最 大 问题 量 





一 些 注意 事项 
这 里 就 渐 近 符号 做 一 些 提醒 。 首 先 ， 注 意 大 0 符号 和 其 他 符号 在 使 用 时 可 能 会 被 误导 ， 
因为 它们 “隐藏 ”的 常数 因子 可 能 非常 大 。 例 如 ， 虽 然 函数 1090 是 O(n) 是 ， 但 与 运行 时 
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间 为 10n log 的 算法 相 比 ， 虽 然 线 性 算法 渐 近 速度 更 快 ， 我 们 可 能 更 倾向 于 选择 运行 时 间 
为 O(n log n) 的 算法 。 之 所 以 这 样 ， 是 因为 常数 10” 被 称 为 “天 文 数字 ”， 在 观测 宇宙 时 ， 
许多 天 文学 家 一 致 认为 该 数字 是 原子 数目 的 上 限 。 所 以 ,我 们 不 可 能 得 到 一 个 像 输入 大 小 一 
样 大 的 现实 问题 ， 因 此 ， 在 使 用 大 O 符号 时 ， 我 们 应 该 注意 被 “隐藏 ”的 常数 因子 和 低 阶 
项 。 

上 述 观 测 引 发 了 这 样 的 问题 : 什么 是 “快速 ”算法 。 一 般 来 说 ， 任 何 算法 的 运行 时 间 为 
O(n log n) (在 给 定 一 个 合理 的 常数 因子 的 情况 下 )， 都 应 被 认为 是 高 效 的， 甚至 运行 时 间 为 
O(n’) 的 算法 在 一 些 情形 下 ， 比 如 很 小 时 ， 也 被 认为 是 快速 的 。 但 如 果 算 法 的 运行 时 间 为 
0O(2”)， 则 大 多 数 情 况 不 会 被 认为 是 高 效 的 。 

指数 运行 时 间 

有 一 个 著名 的 关于 国际 象棋 发 明 者 的 故事 。 他 要 求 国 王 在 象棋 的 第 一 个 格 只 需 支 付 1 粒 
米 ， 第 二 格 2 粒 ， 第 三 格 4 粒 ， 第 四 格 8 粒 ， 以 此 类 推 。 如 果 使 用 编程 技巧 编写 一 个 程序 来 
精确 计算 国王 应 支付 的 米粒 数量 ， 这 将 会 是 一 个 有 趣 的 测试 。 

如 果 必 须 在 高 效 和 不 高 效 算法 之 间 划 清 界限 ， 那 么 很 自然 ， 多 项 式 运行 时 间 和 指数 运行 
时 间 将 会 是 一 个 明显 的 区 别 。 也 就 是 说 ， 区 分 运行 时 间 On) 是 否 为 快速 算法 ， 只 需 看 常数 
c 是否 满足 c> 1; 区 分 运行 时 间 O(b") 是 否 为 快速 算法 ， 只 需 看 常数 上 是否 满 足 b> 1. dA 
讨论 的 许多 概念 也 应 该 看 作 “ 盐 粒 ”， 因 为 运行 时 间 为 O(n'?) 的 算法 可 能 不 被 认为 是 “高 效 ” 
的 。 即 便 如 此 ， 多 项 式 运 行 时 间 和 指数 运行 时 间 的 区 别 仍 被 认为 是 健壮 易 处 理 的 方式 。 


3.8.89 SUE ol 


既然 我 们 用 大 O 符号 能 进行 算法 分 析 ， 接 下 来 给 出 使 用 该 符号 来 描述 一 些 简单 算法 的 
运行 时 间 的 若 二 示例。 此外， 为 了 和 之 前 的 约定 保持 一 致 ， 我 们 将 介绍 本 章 给 出 的 7 个 函数 
是 如 何 被 用 于 描述 算法 实例 的 运行 时 间 的 。 

在 本 节 中 ， 我 们 不 再 使 用 伪 代 码 ， 而 是 给 出 完整 的 能 够 实现 的 Python 代码 。 我 们 用 
Python 的 list 类 自然 地 表示 数组 的 值 。 在 第 5 章 ， 我 们 将 深入 研究 Python 的 list 类 以 及 该 类 
所 提供 的 各 种 方法 的 效率 。 在 本 节 中 ， 我 们 仅仅 介绍 几 种 方法 来 讨论 它们 的 效率 。 

常量 时 间 操 作 

给 出 一 个 Python 的 list 类 的 实例 ， 将 其 命名 为 data， 调 用 函数 len(data)， 在 固定 的 时 
间 内 对 其 进行 评估 。 这 是 一 个 非常 简单 的 算法 ， 因 为 对 于 每 一 个 列表 ，list 类 包含 一 个 能 记 
录 列 表 当 前 长 度 的 实例 变量 。 这 就 使 得 该 算法 能 立即 得 出 列表 的 长 度 ， 而 不 用 再 花 时 间 和 迭代 
计算 列表 中 的 每 个 元 素 。 使 用 渐 近 符号 ， 我 们 说 函数 的 运行 时 间 为 0(1)， 也 就 是 说 ， 函 数 
的 运行 时 间 是 独立 于 列表 长 度 n 的 。 

Python 的 list 类 的 男 一 个 重要 特征 是 能 使 用 整数 索引 j 写 出 data[j] 来 访问 列表 中 的 任意 
元 素 。 因 为 Python 列表 是 基于 数组 序列 执行 的 ， 列 表 中 的 元 素 存储 在 连续 的 内 存 块 内 。 之 
所 以 能 搜索 到 列表 中 的 第 j SICK, 不 是 靠 迭 代 列 表 中 的 元 素 得 到 的 ， 而 是 通过 验证 索引 ， 
并 把 该 索引 作为 底层 数组 的 偏 移 量 得 到 的 。 反 过 来 ， 对 于 某 一 元 素 ， 计 算 机 硬件 支持 基于 
内 存 地 址 的 常量 时 间 访 问 。 因 此 ， 我 们 说 Python 列表 的 data[j] 元 素 的 运行 时 间 被 估计 为 
O(1). 

回顾 在 序列 中 找 最 大 数 的 问题 

在 开始 下 一 个 示例 之 前 ， 我 们 先 来 回顾 一 下 代码 段 3-1 中 的 find max 算法 ， 即 在 列表 
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中 找 最 大 值 。 在 命题 3-7 中 ,我 们 得 出 该 算法 的 运行 时 间 为 0(n)。 这 符合 我 们 之 前 的 分 析 : 
语法 data[0] 的 初始 化 运行 时 间 为 0(1)。 该 循环 执行 n 次 ， 在 每 次 循环 中 ， 都 执行 一 次 比较 ， 
可 能 也 会 执行 一 次 赋值 语句 (以 及 维持 循环 变量 )。 最 后 ,我们 注意 到 Python 返回 语句 机 制 
运行 时 间 也 为 0(1)。 综 上 所 述 ， 我 们 得 出 算法 find max 的 运行 时 间 为 O(n). 

进一步 分 析 找 最 大 值 算法 

关于 find_max 算法 ， 有 一 个 更 有 趣 的 问题 : 我 们 要 更 新 多 少 次 当前 “最 大 ” 值 ? 在 最 
坏 的 情况 下 ， 即 给 出 的 顺序 按 升序 排列 ， 最 大 值 将 会 被 重新 赋值 2 — 1 次。 但 如 果 给 出 的 是 
随机 序列 ， 即 任何 情况 都 可 能 出 现 ， 在 这 种 情况 下 ， 如 何 预测 最 大 值 将 会 被 更 新 多 少 次 ?要 
回答 这 个 问题 ， 应 注意 在 循环 的 每 一 次 迭代 中 ， 只 有 当前 元 素 比 以 往 所 有 元 素 都 更 大 时 才 会 
更 新 当前 最 大 值 。 如 果 给 出 的 是 随机 序列 ， 则 第 j 个 元 素 比 前 j 个 元 素 更 大 的 概率 是 1 GR 


定 元 素 唯一)。 因 此 ， 我 们 更 新 最 大 值 (包括 初始 化 ) 的 预期 次 数 是 有 ,= 11 j， 这 就 是 著名 


的 n 调 和 数 。 

这 ( 见 附录 中 的 命题 B-16 ) 表明 H, 的 运行 时 间 是 O(log n)。 因 此 ， 在 find_max 算法 
中 ， 基 于 随机 序列 ， 该 算法 的 最 大 值 被 更 新 的 预期 次 数 是 O(log n). 

前 缀 平均 值 

我 们 要 讨论 的 下 一 个 问题 是 著名 的 计算 一 个 序列 的 前 缓 平均 值 。 换 名 话说 ， 给 出 一 个 包 
含 n 个 数 的 序列 S$S， 我 们 想 计 算出 序列 4， 该 序列 满足 的 条 件 为 : 当 j = 0,…,n 一 1 时 ，A4[ 思 
是 S[0], …, SU] 的 平均 值 ， 即 





在 经 济 学 和 统计 学 中 ， 有 很 多 计算 前 缀 平均 值 的 方法 。 比 如 ， 给 出 一 个 公共 资金 的 每 年 
收益 ， 并 把 这 些 收益 从 过 去 到 现在 依次 排列 ， 投 资 者 往往 关注 最 近 一 年 、 三 年 或 五 年 等 的 年 
平均 收益 。 同 样 ， 给 出 一 连 串 的 日 常 网 络 使 用 日 志 ， 网 站 管理 者 可 能 希望 能 追踪 不 同时 期 的 
平均 使 用 趋势 。 我 们 将 分 析 三 种 能 用 于 解决 这 些 问 题 的 方法 ， 且 该 三 种 方法 的 运行 时 间 截 然 
不 同 。 

二 次 -时间 算法 

为 了 计算 前 级 平均 值 ， 我 们 给 出 第 一 个 算法 (如 代码 段 3-2 所 示 )， 并 将 其 命名 为 prefix_ 
averagel。 该 算法 使 用 内 部 循环 计算 部 分 和 ， 因 而 能 独立 计算 出 序列 4 的 每 一 个 元 素 。 


代码 段 3-2 算法 prefix_average1 
def prefix averagel(S): 


l 

2  """Return list such that, for all j, A[j] equals average of S[0], .... S[j].""" 
3 n-len(S) 

4 A-[0]*n # create new list of n zeros 

5 for j in range(n): 

6 total = 0 # begin computing S[0] + ... + Sj 
7 for i in range(j + 1): 

8 total 十 = S[i] 

9 A[j] = total / (j+1) # record the average 
10 return A 


为 了 分 析 算 法 prefix_average1， 我 们 对 每 步 执行 情况 进行 讨论 。 
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e 在 本 节 开 始 处 已 给 出 n = len(S)， 且 执行 时 间 固 定 。 
e 语句 A= [0]*n 用 于 创建 和 初始 化 Python 列表 ， 列 表 长 度 为 x， 每 个 元 素 值 为 0。 因 
每 个 元 素 都 执行 相同 次 数 的 原子 操作 ， 故 该 算法 的 运行 时 间 为 O(n)。 
for 循环 有 两 层 租 套 , 分 别 由 计数 器 7 和 i 独自 约束 。 外 层 循环 被 计数 器 j 约 束 ,，j 从 
0 增长 到 一 1， 共 执行 n 次 。 因 此 ,语句 total = 0 和 A[j] = total/(j + 1) 各 被 执行 n 
次 。 这 表明 这 两 条 语句 加 上 j 在 此 范围 的 执行 ， 使 得 原子 操作 的 次 数 按 比例 增长 到 
n， 即 其 运行 时 间 为 O(n). 
内 层 循环 被 计数 器 i 约束， 执行 j+ 1 次 ,具体 执行 次 数 取决 于 外 层 循环 j 的 值 。 因 
此 ， 内 层 循 环 中 的 语句 total += S[i] 共 执 行 1 +2+3+ +n 次 。 通 过 回顾 命题 3-3， 
我 们 知道 1 + 2 + 3 +… xn n(n + 1)/2， 这 就 表明 内 层 循环 的 语句 使 得 该 算法 运行 
时 间 变 为 O(n”)。 对 于 和 计数 器 i 相关 的 原子 操作 ， 也 可 以 做 类 似 的 论证 ， 其 运行 时 
间 也 为 O(n’). 

将 上 述 三 项 运行 时 间 相 加 ， 即 可 得 出 执行 算法 prefix averagel 的 执行 时 间 。 第 一 项 和 
第 二 项 的 运行 时 间 为 0(n)， 第 三 项 的 运行 时 间 为 O(n”)。 通 过 简单 运用 命题 3-9， 得 出 算法 
prefix averagel 的 运行 时 间 为 O(n’). 

接 下 来 介绍 第 二 种 计算 前 缀 平均 值 的 算法 prefix_average2， 如 代码 段 3-3 所 示 。 


代码 段 3-3 算法 prefix_average2 
| def prefix average2(S): 
2  """Return list such that, for all j, A[j] equals average of S[0], ..., S[j].""" 
3 n-len(S) 
4 A-—[0]*n # create new list of n zeros 
5  forjin range(n): 
6 A[j] = sum(S[0:j--1]) / (+1) # record the average 
7 return A 


该 方法 本 质 上 和 算法 prefix averagel 一 样 ， 都 属于 高 级 算法 ， 只 是 不 再 使 用 内 层 循环 ， 
转 而 使 用 单一 表达 式 sum(S[0: j + 1]) 来 计算 部 分 和 S[0] + … + Sp/]« IRI sum 函数 极 大 地 
简化 了 算法 的 规模 ,但 是 否 对 效率 有 影响 值得 思考 。 从 渐 近 的 角度 来 说 ,没有 比 该 算法 更 好 
的 了 。 虽 然 表 达 式 sum(S[0: j + 1]) 看 起 来 似乎 是 一 条 指令 ， 但 它 却 是 一 个 函数 调用 ， 并 能 评 
估 出 该 函数 在 算法 中 的 运行 时 间 为 OG + 1)。 从 技术 上 讲 ， 这 一 句 计 算 S[0: j + 1] 运行 时 间 
也 为 O0 + 1H)， 因 为 它 构造 了 一 个 新 的 实例 存储 列表 。 因 此 算法 prefix average2 的 运行 时 间 
仍 被 一 系列 步骤 所 决定 ， 这 些 步骤 按 比 例 运行 时 间 为 1+ 2 +3+…+7， 因 此 仍 为 Omn) 

线性 时 间 算 法 

接 下 来 给 出 最 后 一 个 算法 prefix average3, ， 如 代码 段 3-4 所 示 。 

就 像 前 两 个 算法 一 样 ， 我 们 热衷 于 对 每 个 7 计算 前 组 和 S[0] + S[1] + … + SD]. HER 
码 中 以 total 表示 ， 以 便 能 够 进一步 计算 前 级 平均 值 A[j] = total + 1)。 不 过 ,与 前 两 个 算 
法 不 同 的 是 该 算法 更 高 效 。 


代码 段 3-4 Bik prefix_average3 
def prefix_average3(S): 


l 

2  """Return list such that, for all j. A[j] equals average of 9[0]，.… S[j].""" 
3 n-len(S) 

4 A-—[0]*n # create new list of n zeros 

5 


total — 0 # compute prefix sum as S[0] 十 S[1] + ... 
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6 for j in range(n): 

7 total += Sj # update prefix sum to include S[j] 

8 A[j] = total / (j+1) # compute average based on current sum 
9 return A 


在 前 两 个 算法 中 ， 对 每 一 个 7， 都 要 对 前 缀 和 重新 进行 计算 。 因 每 一 个 7 都 需要 OQ) 的 
运行 时 间 ， 从 而 导致 该 算法 运行 时 间 变 为 二 次 。 在 算法 prefix average3 中 ， 我 们 动态 保存 当 
前 的 前 级 和 ， 用 total + S[j] 高 效 计算 S[0] + S[1] + … + SU], XE total 的 值 就 等 于 先前 算法 
循环 执行 到 7 时 的 和 SLO] + ST1] 十 … + SU- 1]。 对 算法 prefix average3 运行 时 间 的 分 析 如 下 : 

e 初始 化 变量 n 和 total, FAY O(1). 

e 初始 化 列表 A， 用 时 O(n). 

e 只 有 一 个 for 循环 ， 用 计数 器 j 来 约束 。 计 数 器 在 循环 范围 内 持续 迭代 ， 使 得 total 用 

时 O(n)。 
e j 从 0 到 nn 一 1， 循环 体 被 执行 n 次 。 因 此 , 语句 total += S[j] 和 A[j] = total/(j + 1) 各 
被 执行 n 次 。 因 为 这 两 条 语句 每 次 迭代 用 时 O(1)， 所 以 共用 时 O(n). 

通过 对 上 述 四 项 求 和 便 可 得 出 算法 prefix. average3 的 运行 时 间 。 第 一 项 是 O(1)， 剩 余 
三 项 是 O(n)。 通 过 对 命题 3-9 的 简单 运用 ， 得 出 prefix_average3 的 运行 时 间 为 O(n)， 比 二 
次 算法 prefix averagel 和 prefix average2 运行 效率 更 高 。 

三 集 不 相交 

假设 我 们 给 出 三 个 序列 4、B、C。 假 定 任 一 序列 没有 重复 值 ， 但 不 同 序列 间 可 以 重复 。 
三 集 不 相交 问题 就 是 确定 三 个 序列 的 交集 是 否 为 空 ， 即 不 存在 元 素 x 满 足 xE 4、xEB 且 
x € C。 代 码 段 3-5 给 出 了 一 个 简单 的 Python 函数 来 确定 这 个 性 质 。 

代码 段 3-5 算法 disjoint1 测试 三 集 不 相交 

1 def disjoint1(A, B, C): 

2 — """Return True if there is no element common to all three lists." "" 

3 for ain A: 

4 for b in B: 

5 for c in C: 
8 





6 if a —— b ——:c: 
return False # we found a common value 


return True # if we reach this, sets are disjoint 


S 


这 个 简单 的 算法 将 遍历 三 个 序列 任 一 组 可 能 的 三 个 值 并 且 确 定 这 些 值 是 否 相等 。 假 如 最 
初 序列 每 一 个 长 度 都 为 上， 在 最 坏 情况 下 ， 该 函数 的 运行 时 间 为 OQ). 

我 们 可 以 用 一 个 简单 的 观测 来 提高 浙 近 性 。 一 旦 在 循环 B 中 发 现 此 时 的 元 素 a 和 4。 不 
相等 ， 再 去 遍历 C 为 了 找 三 个 相等 的 数 ， 则 就 浪费 时 间 了 。 在 代码 段 3-6 中 ， 利 用 观测 思 
想 ， 给 出 了 解决 该 问题 的 改进 方案 。 


代码 段 3-6 ”算法 disjoint2 测试 三 集 不 相交 
def disjoint2(A, B, C): 


1 

2 """ Return True if there is no element common to all three lists." "" 

3 for ain A: 

4 for b in B: 

3 ifa== b: # only check C if we found match from A and B 
6 for c in C 

7 ifa ——tc # (and thus a == b == c) 

8 return False # we found a common value 


9 return True # if we reach this, sets are disjoint 





在 改进 方案 中 ， 如 果 运 气 好 ， 则 不 仅 能 节省 时 间 。 对 于 disjoint2, ， 我 们 声明 在 最 坏 情况 
下 的 运行 时 间 为 0(n”))。 这 里 要 考虑 许多 二 次 对 (a, b)。 假 如 4 和 8B 均 为 没有 重复 值 的 序列 ， 
最 多 会 有 0(n)。 因 此 ， 最 内 层 的 循环 C 最 多 执行 n 次 。 

为 了 计算 总 的 运行 时 间 ， 我 们 检测 每 一 行 代 码 的 执行 时 间 。for 循环 在 4 上 需要 运行 
O(n), YE B LIE O(m)， 因 为 该 循环 被 执行 在 个 不 同 的 时 间 段 。 预 计 语句 a == b W 
运行 时 间 为 0(m”)。 剩 下 的 运行 时 间 取 决 于 找到 多 少 匹 配 的 (a, b) 对 。 因 为 我 们 已 经 注意 
A, RZA nt, At for 循环 在 C 上 以 及 循环 体内 的 执行 最 多 用 时 O(n”)。 通 过 规范 运用 
命题 3-9， 得 出 总 的 运行 时 间 为 Om). 

元 素 唯 一 性 

与 三 集 不 相交 紧密 相关 的 便 是 元 素 唯一 性 问题 。 前 面 我 们 给 出 三 个 集合 并 假定 任 一 集合 
内 元 素 不 重复 。 在 元 素 唯一 性 问题 中 ， 我 们 给 出 一 个 有 n 个 元 素 的 序列 $， 求 该 集合 内 的 所 
有 元 素 是 否 都 彼此 不 同 。 


代码 段 3-7“” 用 于 测试 元 素 唯 一 性 的 算法 unique1 

| def uniquel(S): 
2  """Return True if there are no duplicate elements in sequence S.""" 
3 for j in range(len(S)): 
4 for k in range(j+1, len(S)): 
5 if S[j] == S[k]: 

return False # found duplicate pair 
7 return True # if we reach this, elements were unique 


6 


So 


我 们 对 此 问题 的 第 一 个 解决 方案 便 是 采用 一 个 简单 的 迭代 算法 。 在 代码 段 3-7 中 给 出 函 
数 uniquel1 ， 用 于 解决 元 素 唯一 性 问题 。 该 函数 通过 遍历 所 有 下 标 j < 的 不 同 组 合 ， 检 查 是 
否 有 任 一 组 合 两 元 素 相等 。 该 算法 使 用 两 层 循 环 ， 外 层 循环 的 第 一 次 迭代 致使 内 层 循 环 n - 1 
次 迭代 ， 外 层 循环 的 第 二 次 迭代 致使 内 层 循环 n - 2 次， 以 此 类 推 。 因 此 ， 在 最 坏 情况 下 ， 
该 函数 的 运行 时 间 按 比例 增长 到 

(一 1+ 一 2 十 "和 + 

通过 命题 3-3 ， 我 们 得 出 总 运行 时 间 仍 为 O) 

以 排序 作为 解决 问题 的 工具 

解决 元 素 唯一 性 问题 更 优 的 一 个 算法 是 以 排序 作为 解决 问题 的 工具 。 在 此 情况 下 ， 通 
过 对 序列 的 元 素 进 行 排 序 ， 我 们 确定 任何 相同 元 素 将 会 被 排 在 一 起 。 因 此 ， 为 了 确定 是 否 有 
重复 值 ， 我 们 所 要 做 的 就 是 遍历 该 排序 的 序列 ， 查 看 是 否 有 连续 的 重复 值 。 该 算法 的 一 个 
Python 实现 方法 如 代码 段 3-8 所 示 : 


代码 段 3-8 ”用 于 测试 元 素 唯 一 性 的 算法 unique2 
| def unique2(S): 
2  """Return True if there are no duplicate elements in sequence S.""" 
3 temp = sorted(S) # create a sorted copy of S 
4 for j in range(1, len(temp)): 
5 if temp [j—1] ——temp [j]: 
6 return False # found duplicate pair 
7 return True # if we reach this, elements were unique 


如 1.5.2 节 所 述 ， 内 置 函数 sorted 的 基本 功能 是 对 原始 列表 的 元 素 进行 一 次 有 序 排 序 后 
产生 的 一 个 新 列表 。 该 函数 保证 在 最 坏 情况 下 其 运行 时 间 为 O(n log n); 详 见 第 12 章 对 常见 
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排序 算法 的 讨论 。 一 旦 数据 被 排序 ， 下 面 的 循环 运行 时 间 就 变 为 0(n)， 因 此 算法 unique2 的 
总 运行 时 间 为 O(n log n)o 


3.4 简单 的 证 明 技 术 


有 时 ， 我 们 会 想 做 关于 一 个 算法 的 声明 ， 如 显示 它 是 正确 的 或 者 它 的 运行 速度 很 快 。 为 
了 使 声明 更 加 严谨 ， 我 们 必须 使 用 数学 语言 。 为 了 证 实 这 样 的 说 法 ,我 们 必须 对 声明 加 以 证 
明 。 幸 运 的 是 ， 有 几 种 简单 的 方法 可 以 做 到 这 一 点 。 


3.4.1 示例 


有 些 声 明 的 一 般 形式 为 :“ 在 集合 5S 中 ,存在 具有 性 质 P 的 元 素 x”。 为 了 证 明 这 个 说 法 ， 
我 们 只 需要 生成 一 个 特定 的 元 素 x， 它 在 集合 8$ 中 并 具有 性 质 P。 同 样 ， 一 些 难 以 置信 的 声 
明 的 一 般 形式 为 :“ 在 集合 5 中， 任 一 元 素 x 都 具有 性 质 P”。 为 了 证 明 这 种 声明 是 错误 的 ， 
我 们 只 需 生 成 一 个 特定 的 元 素 x， 它 在 集合 $ 中 并 不 具有 性 质 P。 这 样 的 实例 就 是 一 个 反例 。 

例题 3-17: Amongus 教授 声称 ， 当 i 是 大 于 1 的 整数 时 ， 每 个 形 如 2' 一 1 的 数 是 一 个 素 
数 。Amongus 教授 的 说 法 是 错误 的 。 

WEBB: 为 了 证 明 Amongus 教授 是 错误 的 ， 我们 找 出 一 个 反例 。 幸 运 的 是 ， 我 们 不 需要 
找 太 大 的 数 ， 例 如 2 -1=15=3x5。 图 


3.4.0 ” 反 证 法 


另 一 种 证 明 技 术 涉 及 否定 的 使 用 。 两 个 主要 的 这 类 方法 是 逆 否 命题 和 了 矛盾 的 使 用 。 逆 和 否 
命题 方法 的 使 用 就 像 透 过 镜子 的 反面 进行 观察 。 为 了 证 明 命 题 “ 如 果 p 为 真 ， 那么 gq AR”, 
我 们 使 用 命题 “如 果 4 非 真 ， 那么 p 非 真 ”来 代替 。 从 人 逻辑 上 讲 ， 这 两 个 命题 是 相同 的 , 但 
是 后 者 ， 也 就 是 第 一 个 命题 的 逆 否 命题 ， 可 能 更 容易 思考 。 

例题 3-18: a fob BEER, to Rab 是 偶数 ， 那 么 a 是 偶数 或 者 b 是 偶数 。 

证 明 : 为 了 证 明 这 个 结论 ， 我们 来 考虑 它 的 逆 否 命题 ,“ 如 果 a 是 奇数 并 且 bib, 
那么 ab 也 是 奇数 ”。 所 以 , 假设 a= 27+1 和 b= 2k+ 1， PA, ab=4jk+2j+2k+1= 
2(2 并 +7 + 有 +1， 其 中 ,7 和 大 为 整数 ， 可 证 ab 为 奇数 。 E 

除了 显示 道 否 命题 证 明 方 式 的 使 用 ,在 前 面 的 例子 中 还 含有 一 个 德 摩 根 定律 
(DeMorgan's Law) 的 应 用 。 这 个 定律 能 帮助 我 们 处 理 否 定 ， 因 为 它 说 明了 “p RE q” HE 
定形 式 是 “ 非 p 并 非 9”。 同 样 ， 它 也 说 明了 “p 并 gqg” 的 否定 形式 是 “ 非 p 或 者 非 9。” 

矛盾 

另 一 个 反 证 方法 是 通过 矛盾 来 证 明 ， 这 也 常常 涉及 德 摩根 定律 的 使 用 。 通 过 矛盾 的 方法 
进行 证 明 时 ， 我 们 建立 一 个 声明 g 是 真 的 ， 首 先 假设 q 是 假 的， 然后 显示 出 由 这 个 假设 导致 
的 矛盾 (如 2 关 2 或 1>3)。 通 过 这 样 的 一 个 矛盾 ， 我 们 可 以 得 出 如 果 9 是 假 的 ， 那 么 没有 
一 致 的 情况 存在 ， 所 以 9 必须 是 真 的 。 当 然 ， 为 了 得 出 这 个 结论 ,在 假设 q 是 假 的 之 前 ， 必 
须 确保 我 们 的 情况 是 一 致 的 。 

例题 3-19: 设 a 和 4b 都 是 整数 ， 如果 ab PX, ARA a 是 奇数 并 且 b 也 是 奇数 。 

WEBB: 设 ab 是 奇数 。 我 们 希望 得 到 a 是 奇数 并 且 b 也 是 奇数 。 所 以 ,希望 出 现 与 假设 
相反 的 矛盾 ， 即 假设 a 是 偶数 或 者 上 是 偶数 。 事 实 上， 为 了 不 失 一 般 性 ， 我 们 甚至 可 以 假 
设 a 是 偶数 的 情况 (AA b 的 情况 是 对 称 的 )。 然 后 我 们 设 a = 2j, Hh; 是 整数 。 因 此 ，ab = 


(2j), b = 2 (jb), 得 出 ab 是 偶数 。 但 这 是 一 个 矛盾 : ab 不 能 既是 奇数 又 是 偶数 。 因 此 ，a 
是 奇数 并 且 b 也 是 奇数 。 a 


3.4.3 ”归纳 和 循环 不 变量 


我 们 所 做 出 的 关于 运行 时 间或 空间 约束 的 大 多 数 声明 都 包括 一 个 整数 参数 n (通常 表示 
该 问题 的 “大 小 ”的 直观 概念 )。 此 外 ， 大 多 数 的 这 些 声 明 相当 于 “对 于 所 有 n 2 1, q(n) 
为 真 ”这 样 的 语句 。 由 于 这 是 一 个 关于 无 限 组 数字 的 声明 ， 我 们 不 能 以 直接 的 方式 穷尽 证 明 
这 一 点 。 

归纳 

但 是 ， 通 过 使 用 归纳 的 方法 ， 我 们 通常 可 以 证 明 上 述 声 明 是 正确 的 。 这 种 方法 表明 ， 对 
于 任何 特定 的 n 三 1， 有 一 个 有 限 序列 的 证 明 ， 从 已 知 为 真 的 东西 开始 ， 最 终 得 出 gq(n) 为 真 
的 结论 。 具 体 地 说 ， 通 过 证 明 当 n= 1 时，g(n) 为 真 ， 我 们 开始 用 归纳 法 证 明 (可 能 还 有 其 
他 一 些 值 n= 2, 3, =, k, 上 为 一 个 常数 )。 然 后 ， 我 们 证明 当 mn > 时 归纳 “步骤 ”为 真 ， 即 
表明 “对 于 所 有 7 <n, WR 40) HA, 那么 q(n) 为 真 。” 将 这 两 块 部 分 合 起 来 即 可 完成 归纳 
的 证 明 。 

命题 3-20: 考虑 斐 波 那 契 函数 F(n), "EX X. F(1)=1,F(2) =2,F(n) = F(n-2)+ F(n - 1), 
其 中 n>2 (参见 1.8 节 )， 由 此 推断 F(n) < 2", 

证 明 : 通过 归纳 法 ,我 们 将 证 明 上 述 命 题 是 正确 的 。 

递 推 的 基础 : (n2), F()21«2-22' 3TH F(2)=2<4=2。 

递 推 的 依据 : (n > 2)。 对 于 所 有 n'« n, 假设 结论 是 正确 的 。 考 虑 F(n)。 因 为 n > 2， 
F(n) = F(n-2)* F(n- 1), MEH, KA n-2 和 nn 一 1 都 小 于 n， 我 们 可 以 应 用 归纳 假设 (有 
时 称 为 “递归 假说 ” ) 得 到 F(n-2"?-2"', AA 

gn-24 Wl ell gr-la 5n E 

让 我 们 做 另外 一 个 归纳 论证 ， 这 次 是 我 们 之 前 已 经 看 到 的 事实 。 

命题 3-21: 它 和 命题 3-3 的 定义 相同 。 

mn n(n«l) 
2-7; 

证 明 : 我 们 将 用 归纳 法 证 明 这 个 等 式 。 

递 推 的 基础 : n= 1 最 简单 的 ， 如 果 n= 1， 那么 1= n(n + 1)2. 

递 推 的 依据 : n 2 2 对 于 所 有 n <n, ZE no 


Yi «na 
通过 归纳 假说 ， 有 
, - Dn Dn 
Yi-n 2 
我 们 可 以 把 上 式 简 化 为 


Ee 2n n =  m*n _#(n+1) " 
2 2 - 2 


对 于 所 有 nz. 的 情况 ， 我 们 有 时 会 感到 证 明 一 些 事情 为 真 的 任务 让 我 们 不 堪 重 负 。 但 
是 ,我 们 应 该 记 住 归纳 法 的 具体 步骤 。 这 表明 ， 对 于 任何 特定 的 nx， 通过 一 系列 的 有 限 、 逐 
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步 的 证 明 ， 从 已 知 为 真 的 东西 开始 ， 最 终 得 出 关于 n 的 真实 性 。 总 之 ， 归 纳 论 证 为 一 系列 直 
接 证 明 提 供 了 模板 。 

循环 不 变量 

在 本 节 中 ， 我 们 最 后 讨论 的 证 明 方法 是 循环 不 变量 。 为 了 证 明 一 些 关于 循环 的 语句 工 是 
正确 的 ， 我们 依据 一 系列 较 小 的 语句 Lo, Li, +, Li 来 定义 KL， 其 中 : 

1) 在 循环 开始 前 ， 最 初 要 求 Lo 是 真 的 。 

2) 如 果 在 迭代 7 之 前 -1 为 真 ， MAKER Za Lj AAA ES 

3) 最 后 的 语句 Li 意味 着 想 要 证 明 的 语句 工 为 真 。 

让 我 们 以 一 个 简单 的 用 到 循环 不 变量 参数 的 例子 来 证 明 算 法 的 正确 性 。 尤 其 是 ， 用 一 个 
循环 不 变量 来 证 明 函 数 find (参见 代码 段 3-9 ), 

找 出 出 现在 序列 S 中 元 素 val 的 最 小 索引 值 。 


代码 段 3-9 寻找 一 个 给 定 的 元 素 在 Python 列表 中 出 现 的 第 一 个 索引 值 的 算法 

| def find(S, val): 
2 """ Return index j such that S[j] == val, or -1 if no such element." "" 
3 n-len(S) 
4 jeg 
5 while j < n: 
6 if 5[] == val: 
7 return j # a match was found at index j 
8 j 十 = 1 

9 return —1 


为 了 说 明 find 函数 为 真 ， 我 们 归纳 定义 一 系列 的 语句 石 ， 来 推断 算法 的 正确 性 。 具 体 

地 说 ， 在 while 循环 迭代 的 开始 ， 我 们 认为 以 下 的 叙述 为 真 : 
L; val 不 等 于 序列 S 中 的 第 一 个 元 素 j 的 任何 一 个 

循环 的 第 一 次 迭代 开始 时 ， 这 种 声明 为 真 ， 因 为 了 是 0， 序列 8 中 的 第 一 个 0 中 没有 元 
x (这 样 的 一 个 非常 真实 的 声明 被 称 为 空 存 )。 在 第 7 次 欠 代 中 ,我们 比较 元 素 val 和 元 素 
S[]， 如 果 这 两 种 元 素 是 相等 的 ， 那么 返回 索引 值 j， 在 这 种 情况 下 ， 这 显然 是 正确 的 并 且 可 
以 完成 这 个 算法 。 如 果 两 个 元 素 val 和 SU] 是 不 相等 的 ， 那么 我 们 可 以 多 一 个 不 等 于 val 的 
元 素 ， 并 把 索引 值 j 加 一 。 因 此 ， 对 于 这 个 新 的 索引 值 j， 这 个 声明 LERE, TEEF 
一 次 迭代 开始 时 它 为 真 。 如 果 while 循环 终止 而 没有 返回 序列 S 中 的 任何 一 个 索引 值 ， 则 有 
j=n。 也 就 是 说 ,L, 为 真一 一 在 序列 S 中 没有 与 val 相等 的 元 素 。 因 此 ， 该 算法 准确 的 返回 - 1, 
以 指示 在 序列 S 中 没有 元 素 valo 


3.5 练习 

请 访问 www.wiley.com/college/goodrich 以 获得 练习 帮助 。 

巩固 

R-3.1 夯 出 函数 8n、4n log 2、27z2、 和 22 WAI, HP x Ay 轴 均 为 对 数 刻度 。 也 就 是 说 ， 若 函 
数 f(n) 的 值 为 y， 则 x 坐标 为 log (n), y 坐标 为 log (vy), HA, œ, vy) 为 一 个 点 。 

R-3.2 算法 A 和 B 执行 的 操作 个 数 分 别 为 8n log (n) 和 2m。 确定 mo, WE: n > nht, A 比 B 更 优 。 

R-3.3 算法 A WI B 执行 的 操作 个 数 分 别 为 40n* 和 2m。 确 定 no, WE: “n> nht, Ate BER., 

R-34 ”请 给 出 一 个 函数 示例 ,该 函数 在 双 对 数 坐 标 轴 和 标准 坐标 轴 中 的 图 形 相 同 。 

R-3.5 试 解释 : 在 双 对 数 坐标 轴 中 ,斜率 为 c 的 函数 n*， 为 何其 图 形 为 一 条 直线 ? 





R-3.6 ”对 于 任意 的 正 整数 n，0 — 2n 范围 内 ， 所 有 偶数 的 和 是 多 少 ? 
R-3.7 证 明 下 面 两 个 语句 等 价 : 

1) 算法 A 的 运行 时 间 总 为 O(f(n)). 

2) 在 最 坏 的 情况 下 ， 算 法 A 的 运行 时 间 为 OF) 
R-3.8 根据 渐 近 增长 速率 对 下 面 的 函数 进行 排序 。 


4n log n+2n 2" 2" 
3n+100logn 4n 2n 
n’+10n n nlogn 


R-3.9 WEH: Zi d(n) 为 OU(Ua))， 对 于 任意 的 常数 ga> 0, adn) 为 O(f(n)). 

R-3.10 证 明 : # d(n) Jy O(f(n)), e(n) H Olein), W d(nje(n) H O(f(n)g(n)). 

R-3.11 WEH: Zr dn) H O(f(n)), e(n) H O(g(n)), Mi din) + e(n) H O(f(n) + gin) 

R-3.12 证 明 : Æ d(n) H O(f(n)), eln) A O(g(n)), W (n) - eln) 不 一 定 为 OV(n) - g(m)« 

R-3.13 ”证明 : 若 d(n) 为 OV(n)), f(n) H O(g(n)), W d(n) H O(g(n))。 

R-3.14 WEH: O(max{ f(n), g(n)}) = O(f(n) + g(m)« 

R-3.15 WEH: 4AM go») H Q(f() MT, fln) 为 O(g(n))。 

R-3.16 WEH: A p(n) 为 n 的 多 项 式 ， 则 log p(n) 为 O(log n). 

R-3.17 证 明 : (n+1) 为 O(n’)。 

R-3.18 证 明 : 2"*' Jj 0(2”)。 

R-3.19 证 明 : n Jy O(n log n). 

R-3.20 证 明 : m 9j Q(nlog n), 

R-3.20 WEH: nlogn H O(n). 

R-3.22 证 明 : 车 fn) 为 正 的 、 非 递减 函数 ， 且 恒 大 于 1， 则 [fln) | 为 OG). 

R-3.23 ”对 代码 段 3-10 中 给 出 的 函数 examplel， 使 用 n 对 其 运行 时 间 做 大 O 描述 。 

R-3.24 对 代码 段 3-10 中 给 出 的 函数 example2， 使 用 n 对 其 运行 时 间 做 大 O 描述 。 

R-3.25 ”对 代码 段 3-10 中 给 出 的 函数 example3， 使 用 n 对 其 运行 时 间 做 大 O 描述 。 

R-3.26 ”对 代码 段 3-10 中 给 出 的 函数 example4, 使 用 n 对 其 运行 时 间 做 大 O 描述 。 

R-3.27 ”对 代码 段 3-10 中 给 出 的 函数 examples, 使 用 n 对 其 运行 时 间 做 大 O 描述 。 

R-3.28 在 下 表 中 ， 对 于 任 一 孙 数 fn) 和 时 间 ty， 若 针 对 问题 P 的 算法 运行 f(n) 微 秒 ， 确 定 在 1 时 间 内 
P 被 解决 的 最 大 的 n 为 多 少 (其 中 一 项 已 给 出 结果 )。 


qe 





R-3.29 算法 A 对 包含 个 元 素 的 序列 中 的 每 个 元 素 都 执行 O(log n) 的 计算 时 间 。 算 法 A 的 最 坏 运 行 
时 间 是 多 少 ? 

R-3.30 ”给 出 一 个 包含 个 元 素 的 序列 S$, 算法 B 在 5 中 随机 选择 log 2 个 元 素 ， 并 对 每 个 元 素 都 执行 
O(n) 的 计算 时 间 。 算 法 B 的 最 坏 运行 时 间 是 多 少 ? 
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R-331 给 出 一 个 包含 二 个 整数 的 序列 S， 算 法 C 对 S 中 的 每 个 偶数 执行 0(n) 的 计算 时 间 ， 每 个 奇数 
执行 O(log n) 的 运算 时 间 。 算 法 C 的 最 好 和 最 坏 运行 时 间 分 别 是 多 少 ? 


代码 段 3-10 ”用 于 做 分 析 的 一 些 示例 算法 


| def examplel(S): 

2  """Return the sum of the elements in sequence S.""" 

3 n-len(S) 

4 total = 0 

5 for j in range(n): # loop from 0 to n-1 

6 total += Sj 

7 return total 

8 

9 def example2(S): 

I0 — """Return the sum of the elements with even index in sequence S." "" 
11 n-len(S) 

i2 total = 0 

13 for j in range(0, n, 2): # note the increment of 2 


14 total += S[j] 
15 return total 


16 

17 def example3(S): 

18 — """Return the sum of the prefix sums of sequence S.""" 
19 n= len(S) 

20 total = 0 

21 for j in range(n): # loop from 0 to n-1 
22 for k in range(1+j): # loop from 0 to j 

23 total += S[k] 

24 return total 

25 

26 def example4(S): 

27 . """Return the sum of the prefix sums of sequence S.""" 


28 n= len(S) 

29 prefix = 0 

30 total=0 

31 for jin range(n): 
32 prefix += S[j] 


33 total += prefix 

34 return total 

35 

36 def example5(A, B): # assume that A and B have equal length 

37  """Return the number of elements in B equal to the sum of prefix sums in A.""" 


38  n-len(A) 
39 count — 0 


40 for i in range(n): # loop from 0 to n-1 
41 total — 0 

42 for j in range(n): # loop from 0 to n-1 
43 for k in range(1—j): # loop from 0 to j 
44 total += A[k] 

45 if B[i] == total: 

46 count 4— 1 


47 return count 


R-3.32 给 出 一 个 包含 n 个 元 素 的 序列 S， 算 法 DD 对 每 个 元 素 SU] 都 调用 算法 E。 算 法 E 被 调用 时 ， 
对 于 每 个 元 素 Slil, ZAHA 0(i)。 算 法 D 的 最 坏 运行 时 间 是 多 少 ? 

R-3.33 Al 和 Bob 在 争论 各 自 的 算法 。Al 认为 自己 的 运行 时 间 为 O(n log n) 的 算法 总 是 比 Bob 的 运行 
时 间 为 Om) 的 算法 要 快 。 为 了 解决 这 个 问题 ， 他 们 做 了 一 系列 实验 。 令 ALIEN, fiii] 
RR: 若 n< 100， 则 运行 时 间 为 O(n’) 的 算法 较 快 ， 仅 当 n > 100 时 ， 运行 时 间 为 O(n log n) 
的 算法 才 更 快 。 请 解释 为 何 会 这 样 。 

R-3.34 有 一 个 著名 的 城市 (这 里 可 能 是 无 名 的 )， 城 市 居民 享有 这 样 的 声誉 : 仅 当 一 顿 饭 的 质量 是 他 
们 有 生 以 来 所 体验 的 最 好 的 ， 他 们 才 会 享受 这 顿 饭 ; 否则 ， 就 厌恶 它 。 假 设 饭菜 的 质量 均匀 
分 布 于 一 个 人 的 一 生 ， 描 述 此 城市 的 居民 对 饭菜 满意 的 预期 次 数 。 
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创新 
C-3.35 


C-3.36 
C-3.37 


C-3.38 


C-3.39 


C-3.40 
C-3.41 


C-3.42 


C-3.43 
C-3.44 


C-3.45 


C-3.46 


C-3.47 


假设 在 O(n log n) 时 间 内 可 以 完成 对 n 个 数字 的 排序 ， 证 明 在 O(n log n) 的 时 间 内 能 够 解决 三 
集 不 相交 问题 。 

描述 一 种 有 效 算法 : 在 大 小 为 n 的 序列 中 找到 前 十 个 最 大 元 素 。 你 的 算法 的 运行 时 间 是 多 少 ? 
给 出 一 个 正 函数 ftn) 的 例子 ,满足 : fon) 的 运行 时 间 既 不 是 O(n) 也 不 是 O(n). 


证 明 : DPR O(n’). 


证 明 ， 112 <2。( 提 示 : 根据 几何 级 数 逐 项 求 和 。) 


证 明 : b>1, HARK, log, fn) 为 9 (log f(n)). 

描述 一 种 算法 : 从 个 数字 中 找到 最 小 值 和 最 大 值 ， 要 求 比较 次 数 少 于 3n/2 次 。( 提 示 : 首先 ， 
选 出 一 组 候选 的 最 小 值 和 一 组 候选 的 最 大 值 。) 

Bob 开发 了 一 个 Web 网 站 ， 仅 仅 把 URL £6 f fiii n SAR, FE n PHAM 1 Bil n 进行 了 
编号 。 他 告诉 编号 为 i 的 朋友 ， 他 或 她 对 该 Web 网 站 最 多 访问 i 次 。 现 在 ，Bob 有 一 个 计数 
器 C， 能 够 记录 此 网 站 的 总 访问 量 (但 不 能 辨别 访问 者 是 谁 )。C 最 小 为 多 少 ， 能 够 使 得 Bob 
知道 他 其 中 一 个 朋友 的 访问 次 数 已 达 上 限 ? 

当 为 奇数 时 ， 对 命题 3-3 给 出 一 个 类 似 于 图 3-3b 的 可 视 化 的 理由 。 

在 计算 机 网 络 中 ， 通 信安 全 是 极其 重要 的 ， 许 多 网 络 协议 实现 安全 的 一 种 策略 便 是 加 密 信息 。 
确保 信息 在 网 络 中 安全 传输 的 典型 加 密 方案 基于 这 样 一 个 事实 : 没有 已 知 的 有 效 算法 来 分 解 
大 的 整数 。 因 此 ， 若 使 用 一 个 大 的 素数 p 表示 秘密 信息 ， 我 们 就 可 以 在 网 络 中 传输 数字 x+ = 
pq, X€B 9 为 另 一 个 大 的 素数 ， 且 q > p， 用 于 作为 密 钥 。 假 如 窃听 者 在 网 络 中 获取 到 传输 
数字 +r, 但 若 要 找 出 秘密 信息 p， 则 必须 分 解 r。 

使 用 分 解法 找 信息 时 ， 若 不 知道 密 钥 g， 则 非常 困难 。 为 了 搞 清楚 原因 ， 先 来 考虑 如 下 天 真 的 
分 解 算法 : 


for p in range(2,r): 
if r 96 p —— 0: # if p divides r 
return 'The secret message is p!' 


1) 假设 窃听 者 采用 上 述 算法 ， 并 拥有 一 台 计算 机 ， 能 够 在 Ims (1s 的 百 万 分 之 一 ) 时 间 内 ， 
对 两 个 整数 做 一 次 除法 ， 其 中 每 个 整数 都 超过 100 位 。 若 传输 信息 > 有 100 位 ， 估 计 在 最 坏 
情况 下 解读 信息 p 需要 多 少时 间 。 

2) 上 述 算法 的 最 坏 时 间 复 杂 度 是 什么 ”因为 算法 输入 的 仅仅 是 一 个 大 的 数字 r+， 假设 输入 大 
小 n 表 示 存 储 r 所 需要 的 字 节 位 数 ， 即 n= [(loggry8]- 1， 且 每 次 除法 运行 时 间 为 O(n). 
序列 S$ 包含 n -1 个 唯一 的 整数 ， 整 数 范围 为 [0, n- 1]， 即 此 范围 内 有 一 个 数 不 属 于 S. Wn 
一 个 O(n) -时 间 算 法 找 出 此 数 。 除 了 5 本 身 所 占 的 内 存 外 ， 仅 允许 你 使 用 0(1) 的 额外 空间 。 
Al 说 他 能 证 明 : 在 一 个 羊 群 内 所 有 绵羊 都 是 同一 种 颜色 。 

基本 情况 : 一 只 绵羊 。 很 明显 ， 同 种 颜色 即 是 它 本 身 。 

归纳 步骤 : 一 群 绵羊 ， 共 半 只 。 取 出 绵羊 gc， 通过 归纳 ， 剩 余 的 二 -= 1 只 都 是 同一 种 颜色 。 现 
在 ， 把 绵羊 a 放 回 去 ， 并 取出 一 只 不 同 的 绵羊 5。 通 过 归纳 ， 剩 余 的 n — 1 只 绵羊 (包括 绵羊 
a) 都 是 同一 种 颜色 。 因 此 ， 一 个 羊 群 内 的 所 有 绵羊 都 是 同一 种 颜色 。Al 的 “理由 ” 错 在 哪里 ? 
设 5 为 包含 n 条 直线 的 集合 ,，n 条 直线 位 于 同一 平面 ， 任 意 两 条 直线 都 不 平行 ， 任 意 三 条 直线 
都 不 相交 于 一 点 。 归 纳 证 明 : S 中 的 直线 能 够 确定 OM 个 交点 。 


C-3.48 


C-3.49 


C-3.50 


C-3.51 


C-3.52 


C-3.53 


考虑 下 述 的 “理由 ”: Fibonacci PEZ, F(n) ( 见 命题 3-20 ) 是 O(n). 

基本 情况 (n <2): F(1)-1, F(2)=2. 

归纳 步骤 (n> 2): 假设 当 n'<n 时 ,结论 正确 。 考 虑 n,F(n) = F(n-2)-* F(n -1)。 通 过 归纳 ， 
F(n - 2) dt O(n - 2) H F(n - 1) Z& O(n -1D。 之 后 ,根据 在 R-3.11 中 得 出 的 一 致 性 原理 ，F(n) 
是 O((n - 2) * (n - 1). AUK, F(n) 的 运行 时 间 是 O(n). 

该 “理由 ” 错 在 哪里 ? 

考虑 Fibonacci 函数 ，F(n) ( 见 命题 3-20 )。 归 纳 证 明 F(n) 的 运行 时 间 是 Q((3/2)”)。 


i p) 为 n 次 多 项 式 ， TORNES 


1) 给 出 一 个 简单 O) 时 间 的 算法 计算 p(x)。 
2) 通过 对 x 进行 更 有 效 的 计算 ， 给 出 一 个 简单 O(n log n) 时 间 的 算法 计算 px). 
3) 现在 考虑 对 p(x) 进行 改写 : 

P(X) =a + x(a; 十 X(a2z + x(as 十 … 十 X(an-1 十 Xan) ***))) 


这 就 是 著名 的 霍 纳 法 。 使 用 大 0 符号 ， 描 述 该 方法 执行 的 算术 运算 次 数 。 
证 明 求 和 公式 六 log ;的 运行 时 间 是 O(n log n). 


证 明 求 和 公式 > log; 的 运行 时 间 是 Q(n log n). 


一 位 坏 国王 有 nn 瓶 酒 ， 一 个 间谍 对 其 中 的 一 瓶 下 了 毒 。 不 幸 的 是 ， 他 们 都 不 知道 哪 一 瓶 已 被 
下 毒 。 毒 药 非常 致命 ,仅仅 稀释 一 滴 ， 配 成 10 亿 : 1 的 溶液 ， 也 能 将 人 杀 死 。 虽 然 如 此 , 但 
若 要 毒药 起 作用 ， 也 需要 一 整个 月 的 时 间 。 设 计 一 个 方案 ， 在 一 个 月 的 时 间 内 ,通过 O(n log 
n) 个 测试 者 ， 准 确 确定 哪个 酒 瓶 已 被 下 毒 。 


C-3.54 ”序列 S$ 包 含 n 个 整数 ， 整 数 范 围 为 [0，4n]， 人 允许 有 重复 值 。 描 述 一 个 有 效 算法 ,确定 在 5 中 
值 为 天 的 整数 出 现 次 数 最 多 。 该 算法 的 运行 时 间 是 多 少 ? 

项 目 

P-3.55 对 3.3.3 节 的 三 个 算法 prefix_averagel prefix average2 和 prefix average3 执行 实验 分 析 。 将 
它们 的 运行 时 间 形 象 化 为 一 个 输入 大 小 的 函数 ， 并 以 双 对 数 图 的 形式 表示 。 

P-3.56 ”执行 实验 分 析 : 比较 代码 段 3-10 中 给 出 的 函数 的 相对 运行 时 间 。 

P-3.57 ”执行 实验 分 析 : 验证 Python 的 sorted 方法 平均 运行 时 间 为 O(n log n) 这 一 假设 。 

P-3.58 ”对 解决 元 素 唯 一 性 问题 的 三 个 算法 uniquel, unique2 和 unique3 中 的 任意 一 个 执行 实验 分 析 ， 
确定 最 大 值 mn， 使 得 给 出 的 算法 运行 时 间 小 于 等 于 1min。 

扩展 阅读 


大 OO 符号 关于 其 合适 的 使 用 已 在 参考 文献 品 筷 归 中 给 出 了 一 些 评论 。Knuth%* 晤 使 用 fln) = 
O(g(n)) 进行 定义 ， 但 是 ， 说 “相等 ”仅仅 是 “一 种 方式 ” 。 我 们 选择 了 更 标准 的 相等 概念 ， 即 把 大 O 
符号 看 作 集合 ， 这 一 思想 来 自 于 Brassard 09。Vitter 和 Flajolet po 的 文章 中 提 到 了 热衷 于 学 习 平 均 情 
况 分 析 的 读者 。 对 于 其 他 一 些 数 学 工具 ， 人 参见 附录 Bo 
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在 计算 机 程序 中 ， 描 述 迭 代 的 一 种 方法 是 使 用 循环 ， 比 如 在 1.4.2 节 中 描述 的 Python if 
言 的 while 循环 和 for 循环 。 男 一 种 完全 不 同 的 迭代 实现 方法 就 是 递归 。 

递归 是 一 种 技术 ， 这 种 技术 通过 一 个 函数 在 执行 过 程 中 一 次 或 者 多 次 调用 其 本 身 ， 或 者 
通过 一 种 数据 结构 在 其 表示 中 依赖 于 相同 类 型 的 结构 更 小 的 实例 。 在 艺术 和 自然 界 中 有 很 多 
递归 的 例子 。 例 如 分 形 图 是 自然 方面 的 递归 。 一 个 在 艺术 中 应 用 递归 的 例子 是 俄罗斯 套 娃 。 
每 个 娃娃 要 么 是 实木 的 ， 要么 是 空心 的 ， 并 且 空 心 的 娃娃 里 面包 含 了 男 一 个 俄罗斯 套 娃 。 

在 计算 中 ,递归 提供 了 用 于 执行 迭代 任务 的 优雅 并 且 强 大 的 蔡 代 方 案 。 事 实 上 , 一 些 编 
程 语言 (例如 Scheme, Smalltalk) 不 明确 支持 循环 结构 ， 而 是 直接 依靠 递归 来 表示 和 迭代。 大 
多 数 现代 编程 语言 都 通过 和 传统 函数 调用 相同 的 机 制 支持 函数 的 递归 调用 。 当 函数 的 一 次 调 
用 需要 进行 递归 调用 时 ,该 调用 被 挂 起 ， 直 到 递归 调用 完成 。” 

在 数据 结构 和 算法 的 研究 中 ， 递归 是 一 种 重要 的 技术 。 我 们 将 在 本 书 的 后 面 几 个 章节 
中 多 次 使 用 递归 (尤其 是 第 8 章 和 第 12 章 )。 在 本 章 中 ,我 们 将 从 以 下 四 个 递归 使 用 例证 开 
始 ， 并 给 出 了 每 个 例证 的 Python 实现 。 

e PRAA OARRA n!) 是 一 个 经 典 的 数学 函数 ， 它 有 一 个 固有 的 递归 定义 。 

e. 英 式 标尺 具有 的 递归 模式 是 分 形 结构 的 一 个 简单 例子 。 

e 二 分 查找 是 最 重要 的 计算 机 算法 之 一 。 在 一 个 拥有 数 十 亿 以 上 条 目的 数据 集中 ， 它 

能 让 我 们 有 效 地 定位 所 需 的 某 个 值 。 
e 计算 机 的 文件 系统 有 一 个 递归 结构 ， 在 该 结构 中 ， 目 录 能 够 以 任意 深度 艇 套 在 其 他 
目录 上 。 递 归 算 法 被 广泛 用 于 探索 和 管理 这 些 文件 系统 。 

我 们 接 下 来 讨论 如 何 进行 一 个 递归 算法 的 运行 时 间 的 形式 化 分 析 ， 并 且 讨 论 在 定义 递归 
时 一 些 潜在 的 缺陷 。 在 内 容 的 选择 上 ， 我 们 提供 了 更 多 的 递归 算法 的 例子 ， 强 调 了 一 些 常见 
的 设计 形式 。 


4.1 说 明 性 的 例子 


4.1.1 阶乘 函数 


为 了 说 明 递 归 的 机 制 ， 我 们 首先 介绍 一 个 计算 阶乘 函数 的 值 的 简单 数学 示例 。 一 个 正 整 
数 n 的 阶乘 表示 为 n!， 它 被 定义 为 整数 从 1 到 的 乘积 。 如 果 n = 0， 那么 按照 惯例 n! 被 定 
义 为 1。 更 正式 的 定义 是 ， 对 于 任何 整数 n > 0， 


i 1 n=0 
v nx(n-l)x(n-2)-3x2xl nZl 


例如 ，5!=5x4x3x2x1=120。 阶 乘 函 数 很 重要 ， 其 结果 等 于 个 元 素 全 排列 的 个 数 。 例 
如 ， 三 个 字符 a、b 和 c 有 3!=3x2x1=6 种 不同 的 排列 方式 : abc, acb, bac, bca, cab 


日 ”函数 调用 时 局 部 变量 和 执行 位 置信 息 压 栈 ， 调 用 结束 后 恢复 。 递 归 调 用 也 是 这 样 的 过 程 。 一 一 译 者 注 


和 cba。 
阶乘 函数 有 一 个 固有 的 递归 定义 。 可 以 看 到 5!=5x(4x3x2x1)=5x4!。 通 常 ， 对 于 
NER% n, 我们 可 以 定义 n! =nx(n 一 1)!。 这 个 递归 定义 可 以 形式 化 为 
n=0 
nt nD n21 
在 许多 递归 定义 中 ， 这 个 定义 是 很 典型 的 。 首 先 ， 它 包含 一 个 或 多 个 基本 情况 ， 根 据 定 
量 ， 这 些 基本 情况 通常 被 直接 定义 。 在 这 个 定义 中 , = 0 是 一 个 基本 情况 。 它 还 包含 一 个 
或 多 个 递归 情况 ， 这 些 情 况 的 定义 服从 被 定义 函数 的 定义 。 
阶乘 函数 的 递归 实现 
递归 不 仅 是 一 个 数学 符号 ， 也 可 以 用 于 设计 一 个 阶乘 函数 ， 如 代码 段 4-1 所 示 。 


代码 段 4-1 ”阶乘 函数 的 递归 实现 


def factorial(n): 


I 

2 ifn==0; 

3 return 1 

4 else: 

5 return n * factorial(n—1) 


这 个 函数 不 使 用 任何 显 式 循环 。 和 迭代 是 通过 函数 的 重复 递归 调用 来 实现 的 。 在 这 个 定义 
中 没有 循环 ， 因 为 函数 每 被 调用 一 次 ， 它 的 参数 就 会 变 小 一 次 ， 当 达到 基本 情况 的 时 候 ， 递 
归 调用 就 会 停止 。 

我 们 用 递归 跟踪 的 形式 来 说 明 一 个 递归 函数 的 
执行 过 程 。 跟 踪 的 每 个 条 目 代 表 着 一 个 递归 调用 。 每 
一 个 新 的 递归 函数 调用 用 一 个 向 下 的 箭头 指向 新 的 调 X) 


用 来 表示 。 函 数 返回 时 ， 用 一 个 弯曲 的 箭头 表示 ， 并 mdi 
将 返回 值 标 在 箭头 的 旁边 。 图 4-1 所 示 为 一 个 对 阶乘 
函数 进行 跟踪 的 示例 。 X) 
递归 跟踪 密切 反映 了 编程 语言 对 于 递归 的 执行 。 (ftor) — 
Ey, NÉ ae en erent, dn (  factorial(0)  】 
4-1  factorial(5) 函数 调用 的 递归 跟踪 






return 4 * 6 = 24 
X 











retum 3 *2=6 
wv 





retum 2#1=2 
ka 
return ]*T=1 : 


return 1 





调用 时 ， 都 会 创建 一 个 被 称 为 活动 记录 或 框架 的 结构 
来 存储 信息 ， 这 些 信息 是 关于 函数 调用 的 过 程 的 。 这 
个 活动 记录 包含 一 个 用 来 存储 函数 调用 的 参数 和 局 部 变量 的 命名 空间 (参见 1.10 节 命 名 空间 
的 讨论 )， 以 及 关于 在 这 个 函数 体 中 当前 正在 执行 的 命令 的 信息 。 

如 果 一 个 函数 的 执行 导致 租 套 函数 的 调用 ， 那 么 前 者 调用 的 执行 将 被 挂 起 ， 其 活动 记录 
将 存储 源 代码 中 的 位 置 ， 这 个 位 置 是 被 调用 函数 返回 后 将 继续 执行 的 控制 流 。 该 过 程 可 以 用 
在 标准 情况 下 一 个 函数 调用 另 一 个 不 同 的 函数 ， 或 用 在 一 个 函数 调用 自身 的 递归 情况 下 。 关 
键 的 一 点 是 对 于 每 个 有 效 的 调用 都 有 一 个 不 同 的 活动 记录 。 


4.1.2 绘制 英 式 标尺 


在 计算 阶乘 的 情况 下 ， 也 可 以 采用 循环 来 实现 迭代 ， 不 一 定 必须 采用 递归 的 方法 。 举 
一 个 更 复杂 的 使 用 递归 的 例子 ， 考 虑 如 何 绘制 出 一 个 典型 的 英 式 标尺 的 刻度 。 对 于 每 一 英寸 
(in, lin = 2.54cm)， 我们 用 一 个 数字 标签 做 上 刻度 标记 。 我 们 表示 刻度 的 长 度 并 且 指 定 一 个 


英寸 作为 主 刻度 线 的 长 度 。 在 整个 英寸 刻度 之 间 ， 标 尺 包 含 一 系列 较 小 的 刻度 线 ， 如 1/2 9€ 
寸 、1/4 英寸 ， 等 等 。 当 间隔 的 大 小 减少 了 一 半 时 ， 刻 度 线 的 长 度 也 减 1。 图 4-2 展示 了 几 
个 这 样 的 具有 不 同 主 刻度 长 度 的 标尺 (虽然 不 是 按 比例 绘制 )。 


ae | 4 0 EY 


um E 
2 sa] 


a) 一 个 主 刻度 线 长 度 为 ”b ) 一 个 主 刻度 线 长 度 为 c) 一 个 主 刻度 线 长 度 为 
4 的 2 英寸 标尺 5 的 1 英寸 标尺 3 的 3 英寸 标尺 


图 4-2 一 个 英 式 标尺 绘制 的 三 个 示例 输出 


绘制 标尺 的 递归 方法 

英 式 标尺 模式 是 分 形 的 一 个 简单 示例 ， 也 就 是 具有 在 各 级 放大 的 自 递归 结构 的 形状 。 
考虑 在 图 4-2b 中 所 示 的 刻度 线 长 度 为 5 的 标尺 ， 忽略 包 含 0 和 1 的 刻度 线 ， 考 虑 如 何 绘 
制 这 些 刻度 线 之 间 的 刻度 序列 。 中 央 刻 度 线 (在 1/2 英寸 处 ) 的 长 度 为 4。 观 察 中 央 刻 度 
线 上 面 和 下 面 两 个 部 分 的 刻度 ， 发 现 它们 是 相同 的 ， 并 且 每 部 分 有 一 个 长 度 为 3 的 中 央 
刻度 线 。 

一 般 情况 下 ， 中 央 刻 度 线 长 度 工 = 1 的 刻度 间隔 的 组 成 如 下 : 

e 一 个 中 央 刻 度 线 长 度 为 直 - 1 的 刻度 间隔 

e 一 个 长 度 为 工 的 单独 的 刻度 线 

e 一 个 中 央 刻 度 线 长 度 直 =- 1 的 刻度 间隔 

虽然 可 以 使 用 一 个 迭代 过 程 绘制 这 样 的 标尺 (参见 练习 P-4.25 )， 但 是 这 个 任务 用 递 
归 完 成 更 加 容易 。 如 代码 段 4-2 所 示 ， 代 码 实现 包括 三 个 函数 。 主 函数 draw_ruler 管理 
整个 标尺 的 构建 。 它 的 参数 指定 标尺 的 总 长 度 以 及 主 刻度 线 的 长 度 。 功 能 函数 draw line 
用 指定 数量 的 破 折 号 绘制 一 个 单独 的 刻度 线 (并 且 在 刻度 线 之 后 打印 一 个 可 选 的 字符 串 
标签 )。 

最 重要 的 工作 是 由 递归 函数 draw. interval 来 完成 的 。 这 个 函数 根据 刻度 间隔 中 中 央 
刻度 线 的 长 度 来 绘制 刻度 间隔 之 间 副 刻度 线 的 序列 。 根 据 本 节 开 始 时 列 出 的 工 = 1 的 规 
fg, "4L = 0 这 个 基本 情况 ， 不 再 绘制 任何 东西 。 对 于 工 >= 1， 第 一 步 和 最 后 一 步 都 是 通过 
递归 调用 draw_interval(L-1) 进行 的 ， 中 间 的 步骤 是 通过 递归 调用 函数 draw_interval(L) 进 
行 的 。 

代码 段 4-2 ”绘制 一 个 标尺 的 函数 的 递归 实现 


| def draw.line(tick length, tick. label—' '): 
2  """Draw one line with given tick length (followed by optional label) 
3 line = '-' * tick length 


"nun 





4 if tick label: 
3 line += ' ' + tick label 
6  print(line) 


8 def draw_interval(center_length): 


9  """Draw tick interval based upon a central tick length." "" 

10 if center length > 0: # stop when length drops to 0 
11 draw_interval(center_length — 1) 3 recursively draw top ticks 

12 draw. line(center. length) & draw center tick 

13 draw. interval(center length — 1) # recursively draw bottom ticks 
14 


15 def draw_ruler(num_inches, major. length): 
l6 """ Draw English ruler with given number of inches, major tick length." "" 


17 | draw.line(major length, '0') # draw inch 0 line 

IN for j in range(1, 1 + num.inches): 

19 draw. interval(major length — 1) # draw interior ticks for inch 
20 draw_line(major_length, str(j)) # draw inch j line and label 


用 递归 追踪 说 明 标 尺 的 绘制 
用 一 个 递归 追踪 可 以 使 递归 明 数 draw. interval 的 执行 变 得 可 视 化 。 然 而 ，draw_interval 
的 追踪 比 阶乘 函数 追踪 的 例子 更 复杂 ， 因 为 每 个 实例 进行 了 两 次 递归 调用 。 为 了 说 明 这 一 
点 ， 我 们 将 以 排列 的 形式 展示 递归 跟踪 ， 这 个 形式 非常 类 似 一 个 文档 大 纲 ， 如 图 4-3 所 示 。 
输出 
| = 
一 -~| 一 一 
e dnm 


draw line(3) 一 一 一 一 - > ==> o ea 


draw_interval(2) 


(重复 之 前 的 模式 ) 





图 4-3 对 于 调用 draw_interval(3) 的 局 部 递归 追踪 。 对 于 调用 draw_interval(2) 的 第 二 个 追踪 模式 没有 
予以 展示 ,但 它 与 第 一 个 是 相同 的 


4.1.3 ”二 分 查找 
本 节 将 介绍 一 个 典型 的 递归 算法 一 一 二 分 查找 。 该 算法 用 于 在 一 个 含有 个 元 素 的 有 序 
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序列 中 有 效 地 定位 目标 值 。 这 是 最 重要 的 计算 机 算法 之 一 ， 也 是 我 们 经 常 顺序 存储 数据 〈 见 
图 4-4 ) 的 原因 。 


0.1 2 4¢35 678 8 WU RG 4 is 





图 4-4 值 以 索引 序 eese betel Prionsa, 顶部 的 数字 是 索引 


当 序列 无 序 时 ， 寻 找 一 个 目标 值 的 标准 方法 是 使 用 循环 来 检查 每 一 个 元 素 ， 直 至 找到 目 
标 值 或 检查 完 数据 集 的 每 个 元 素 。 这 就 是 所 谓 的 顺序 查找 算法 。 因 为 最 坏 的 情况 下 每 个 元 素 
都 需要 检查 ， 这 个 算法 的 时 间 复 杂 度 是 O(n)( 即 线性 的 时 间 )。 

当 序 列 有 序 并 且 可 通过 索引 访问 时 ， 有 一 个 更 有 效 的 算法 〈 直 觉 上 ， 想 想 你 如 何 手工 完 
成 这 个 任务 ! )。 对 于 任意 索引 7， 我 们 知道 在 索引 0，…, j - 1 上 存储 的 所 有 值 都 小 于 索引 
j 上 的 值 ， 并 且 在 索引 7 + 1, ce, n- 工 上 存储 的 所 有 值 都 大 于 或 等 于 索引 7 上 的 值 。 在 搜索 
目标 时 ， 这 种 观察 使 我 们 能 够 迅速 定位 目标 值 。 在 查找 时 ， 如 果 不 能 排除 一 个 元 素 与 目标 值 
FADE HC, 那么 称 序列 的 这 个 元 素 为 候选 项 。 该 算法 维持 两 个 参数 low 和 high， 这 样 可 使 所 有 
候选 条 目的 索引 位 于 low Ail high 之 间 。 首 先 ，low = 0 和 high = n — 1。 然 后 我 们 比较 目标 值 
和 中 间 值 候选 项 ， 即 索引 项 [mid] 的 数据 。 

mid =| (low + high)/2 | 

pc reis 

e 如 果 目 标 值 等 于 [mid] 的 数据 ， 然 后 找到 正在 寻找 的 值 ， 则 查找 成 功 并 且 终止 。 

e 如 果 目 标 值 < [mid] 的 数据 ， 对 前 半 部 分 序列 重复 这 一 过 程 ， 即 索引 的 范围 从 low 到 


mid - 1, 
e 如 果 目 标 值 > [mid] 的 数据 ， 对 后 半 部 分 序列 重复 这 一 过 程 ， 即 索引 的 范围 从 mid + 
1 $i high. 


如 果 low > high， 说 明 索 引 范 围 [low, high] 为 空 ， 则 查找 不 成 功 。 

该 算法 被 称 为 二 分 查找 。 代 码 段 4-3 给 出 了 一 个 Python 实例 ， ee caine 
明 如 图 4-5 所 示 。 而 顺序 查找 的 时 间 复 杂 度 是 0(n)， 更 为 高 效 的 二 分 查找 的 时 间 复 杂 
O(log n)。 这 是 一 个 显著 的 改进 ， 因 为 假设 n 是 十 亿 ，log n 仅 为 30。 eee 
间 的 问题 ， 我 们 将 在 4.2 节 命题 4-2 做 正式 的 分 析 。) 


代码 段 4-3 ”二 分 查找 算法 的 实现 


def binary_search(data, target, low, high): 
""" Return True if target is found in indicated portion of a Python list. 


1 

2 

3 

4 The search only considers the portion from data[low] to data[high] inclusive. 
m 

6 


if low > high: 
7 return False # interval is empty; no match 
83 else: 
9 mid — (low 4- high) // 2 
10 if target == data[mid]: # found a match 
HI return True 
12 elif target < data[mid]: 
13 4: recur on the portion left of the middle 
l4 return binary_search(data, target, low, mid — 1) 
15 else: 
l6 # recur on the portion right of the middle 


17 return binary. search(data, target, mid + 1, high) 
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low=mid=high 
图 4-5 对 于 目标 值 22 的 二 分 查找 的 例子 


4.1.4 文件 系统 


现代 操作 系统 用 递归 的 方式 来 定义 文件 系统 目录 (有 时 也 称 为 “文件 夹 " )。 也 就 是 说 ， 
一 个 文件 系统 包括 一 个 顶级 目录 ， 这 个 目录 的 内 容 包括 文件 和 其 他 目录 ， 其 他 目录 又 可 以 包 
含 文件 和 其 他 目录 ， 以 此 类 推 。 虽 然 必定 会 有 一 些 基本 的 目录 只 包含 文件 而 没有 下 一 级 子 目 
录 ， 但 是 操作 系统 允许 藤 套 任意 深度 的 目录 (只 要 在 内 存 中 有 足够 的 空间 )。 图 4-6 所 示 即 


为 此 类 文件 系统 的 一 部 分 。 


"rades de 


hwl| |hw2| |hw3 pr2| | pr3 
papers/ demos/ 
un 


图 4-6 用 文件 系统 的 一 部 分 展示 嵌 套 结构 


考虑 到 文件 系统 表示 的 递归 特性 ， 操 作 系 统 中 许多 常见 的 行为 ， 比 如 目录 的 复制 或 删 
除 ， 都 可 以 很 方便 地 用 递归 算法 来 实现 。 在 本 节 中 ， 我 们 考虑 这 样 一 个 算法 : 计算 姐 套 在 一 
个 特定 目录 中 的 所 有 文件 和 目录 的 总 磁盘 使 用 情况 。 

为 了 说 明 空 间 的 使 用 情况 ， 图 4-7 显示 了 样 例文 件 系统 中 所 有 条 目 使 用 的 磁盘 空间 。 
我 们 对 每 个 条 目 所 使 用 的 即时 磁盘 空间 以 及 由 该 条 目 和 所 有 藤 套 目录 所 使 用 的 累计 磁盘 空 
间 加 以 区 分 。 例 如 ， 目 录 cs016 仅仅 使 用 了 2K 的 即时 空间 ,但 使 用 了 249K 的 累计 磁盘 
空间 。 
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图 4-7 和 图 4-6 的 文件 系统 局 部 有 相同 的 部 分 ， 但 增加 了 用 于 描述 所 使 用 磁盘 空间 量 的 注释 。 每 个 文 
件 或 目录 的 图 标 里 面 是 该 模块 镜像 直接 使 用 空间 的 总 量 。 每 个 目录 的 图 标 上 面 是 由 该 目录 及 
其 所 有 (递归 ) 内 容 使 用 的 累计 磁盘 空间 


一 个 条 目的 累计 磁盘 空间 可 以 用 简单 的 递归 算法 来 计算 。 它 等 于 条 目 使 用 的 直接 磁盘 空 
间 加 上 直接 存储 在 该 条 目 中 所 有 条 目 使 用 的 累计 磁盘 空间 之 和 。 例 如 ，cs016 的 累计 磁盘 空 
间 是 249K， 因 为 它 本 身 使 用 2K 的 磁盘 空间 ，grades 使 用 SK 的 累计 磁盘 空间 ，homeworks 
使 用 10K 的 累计 磁盘 空间 ，programs 使 用 229K 的 累计 磁盘 空间 。 代 码 段 4-4 给 出 了 这 个 算 
法 的 伪 代 码 。 


代码 段 4-4 ”计算 柑 套 在 一 个 文件 系统 条 目 中 的 累积 磁盘 空间 使 用 的 算法 。Size 
函数 返回 一 个 条 目的 即时 磁盘 空间 
Algorithm DiskUsage(path): 
Input: A string designating a path to a file-system entry 
Output: The cumulative disk space used by that entry and any nested entries 
total — size(path) (immediate disk space used by the entry] 
if path represents a directory then 
for each child entry stored within directory path do 
total = total + DiskUsage(child) (recursive call] 
return total 


Python 的 操作 系统 模块 
为 了 给 出 一 个 计算 磁盘 使 用 情况 的 递归 算法 Python 实例 ， 我 们 需要 借助 Python 的 操作 
系统 模块 ， 在 程序 执行 的 过 程 中 ， 该 模块 提供 了 强大 的 与 操作 系统 交互 的 工具 。 这 是 一 个 丰 
富 的 函数 库 ， 但 我 们 只 需要 以 下 四 个 函数 : 
e os.path.getsize(path) 
返回 由 字符 串 路 径 〈 例 如 : /user/rt/courses) 标识 的 文件 或 者 目录 使 用 的 即时 磁盘 空 
间 大 小 〈 单 位 是 字 节 )。 
€ os.path.isdir(path) 
如 果 字 符 串 路 径 指定 的 条 目 是 一 个 目录 ， 则 返回 True; 否则 ， false。 


e os.listdir(path) 
返回 一 个 字符 串 列 表 ， 它 是 字符 串 路 径 指 定 的 目录 中 所 有 条 目的 名 称 。 在 样 例文 件 
系统 中 ， 如 果 参 数 是 /userrt/courses， 那 么 返回 字符 串 列 表 ['cs016', 'cs252']。 

€ os.path.join(path, filename) 
生成 路 径 字 符 串 和 文件 名 字符 串 ， 并 使 用 一 个 适当 的 操作 系统 分 隔 符 在 两 者 之 间 分 
隔 〈 例 如: Unix/Linux 系统 中 的 /字符 和 Windows 系统 中 的 \' 字 符 )。 返 回 表示 文 
件 完整 路 径 的 字符 串 。 

Python 实例 

通过 使 用 os 模块 ， 现 在 我 们 把 代码 段 4-4 中 的 算法 转换 成 代码 段 4-5 中 的 Python 实例 。 


代码 段 4-5 ”报告 一 个 文件 系统 磁盘 使 用 情况 的 递归 函数 


import os 


| 
2 
3 def disk_usage(path): 

4  """Return the number of bytes used by a file/folder and any descendents." "" 
5 total — os.path.getsize(path) # account for direct usage 

6  ifos.path.isdir(path): # if this is a directory, 


7 for filename in os.listdir(path): # then for each child: 
8 childpath = os.path.join(path, filename) # compose full path to child 
9 total += disk usage(childpath) # add child's usage to total 


10 
11 print ('{0:<7}'.format(total), path) 
12 return total 


# descriptive output (optional) 
# return the grand total 


递归 追踪 

为 了 产生 另 一 种 格式 的 递归 跟 
踪 ， 我 们 在 Python 实例 加 入 了 额外 的 
print 语句 (代码 段 4-5 的 第 11 行 )。 
该 输出 的 准确 格式 有 意 模 仿 由 一 个 
名 为 du 的 典型 的 Unix/Linux 实用 
程序 (对 于 “disk usage”) 生成 的 
输出 。 如 图 4-8 所 示 ， 它 报告 一 个 
HRK PREKURA NAEH K 
磁盘 空间 的 总 量 ， 并 能 生成 详细 的 
报告 。 

在 图 4-7 所 示 的 样 例 文件 系统 
上 执行 时 ，disk_usage 函数 的 实例 
产生 一 个 相同 的 结果 。 在 算法 执行 
期 间 ， 对 于 文件 系统 的 每 一 个 条 
目 ， 正 好 使 用 一 次 递归 调用 。 因 为 
print 语句 是 在 递归 调用 之 前 执行 


/user/rt/courses/cs016/grades 
/user/rt/courses/cs016/homeworks/hw1 
/user/rt/courses/cs016/homeworks/hw2 
/user/rt/courses/cs016/homeworks/hw3 
/user/rt/courses/cs016/homeworks 
/user/rt/courses/cs016/programs/pri 
/user/rt/courses/cs016/programs/pr2 
/user/rt/courses/cs016/programs/pr3 
/user/rt/courses/cs016/programs 
/user/rt/courses/cs016 
/user/rt/courses/cs252/projects/papers/buylow 
/user/rt/courses/cs252/projects/papers/sellhigh 
/user/rt/courses/cs252/projects/papers 
/user/rt/courses/cs252/projects/demos/market 
/user/rt/courses/cs252/projects/demos 
/user/rt/courses/cs252/projects 
/user/rt/courses/cs252/grades 
/user/rt/courses/cs252 

/user/rt/courses/ 





图 4-7 中 所 示 文 件 系统 的 磁盘 使 用 情况 报告 一 一 由 
Unix/Linux 实用 程序 du( 带 命令 行 选项 -ak) 或 代码 
Et 4-5 中 的 disk-usage 函数 生成 


的 ， 所 以 图 4-8 所 示 的 输出 反映 了 递归 调用 完成 的 顺序 。 需 要 特别 强调 的 是 ， 在 可 以 计算 和 
报告 所 有 包含 的 条 目的 累计 磁盘 空间 之 前 ， 我 们 必须 完成 嵌 套 在 该 条 目 之 下 的 所 有 条 目的 
递归 调用 。 人 例如， 我们 在 计算 包含 grades, homeworks 和 programs 条 目的 递归 调用 完成 后 ， 
才 知 道 条 目 /user/rt/courses/cs016 的 累计 磁盘 空间 大 小 。 
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4.2. 分析 递归 算法 

在 第 3 章 中 ， 我 们 介绍 了 一 种 分 析 算法 效率 的 数学 方法 ， 该 方法 基于 算法 执行 的 基本 
操作 次 数 的 估计 值 。 我 们 使 用 符号 (比如 big-Oh) 来 概括 操作 次 数 和 问题 输入 大 小 之 间 的 关 
系 。 本 节 将 演示 如 何 执行 这 种 类 型 的 递归 算法 的 时 间 复 杂 度 分 析 。 

对 于 递归 算法 ， 我 们 将 解释 基于 函数 的 特殊 激活 并 且 被 执行 的 每 个 操作 ， 该 函数 在 被 执 
行 期 间 管理 控制 流 。 换 句 话 说 ， 对 于 每 次 函数 调用 ， 我们 只 解释 被 调用 的 主体 内 执行 的 操作 
的 数目 。 然 后 ， 通 过 在 每 个 单独 调用 过 程 中 执行 的 操作 数 的 总 和 ， 即 所 有 调用 次 数 ， 我 们 可 
以 解释 被 作为 递归 算法 的 一 部 分 而 执行 的 操作 的 总 数 。( 顺 便 说 一 句 ， 这 也 是 我 们 分 析 非 递 
归 函 数 的 方式 。 这 些 非 弟 归 函 数 从 它们 的 函数 体 中 调用 其 他 函数 ) 

为 了 说 明 这 种 分 析 的 模式 ， 我 们 回顾 一 下 4.1.1 — 4.1.4 节 介 绍 的 四 个 递归 算法 : 阶乘 
图 数 、 绘 制 一 个 英 式 标尺 、 二 分 查找 以 及 文件 系统 累计 磁盘 空间 大 小 的 计算 。 一 般 来 说 ， 在 
识别 有 多 少 递归 调用 发 生 ， 以 及 每 个 调用 的 参数 化 可 以 用 来 估计 其 调用 的 主体 内 发 生 的 基本 
操作 次 数 方面 ， 我 们 可 以 借助 于 递归 追踪 提供 的 客观 事实 。 但 是 ， 每 一 个 递归 算法 都 具有 独 
特 的 结构 和 形式 。 

计算 阶乘 

正如 4.1.1 节 所 描述 的 ， 分 析 计 算 阶 乘 的 函数 的 效率 是 比较 容易 的 。 图 4-1 给 出 了 阶乘 
函数 的 一 个 示例 递归 追踪 。 为 了 计算 factorialtn) ， 共 执行 了 za+ 工 次 函数 调用 。 参 数 从 第 一 
次 调用 时 的 n 下 降 到 第 二 次 调用 时 的 n 一 1， 以 此 类 推 ， 直 至 达到 参数 为 0 r 情况 。 

代码 段 4-1 给 出 了 函数 体 的 检测 ， 同 样 清楚 的 是 ， 阶 乘 的 每 个 调用 执行 了 一 个 常数 级 别 
的 运算 。 因 此 ， 我 们 得 出 这 样 的 结论 : 计算 factorial(n) 的 操作 总 次 数 是 O(n), wh n+] 
次 函数 的 调用 ， 所 以 每 次 调用 占 的 操作 次 数 为 0(1)。 

绘制 一 个 英 式 标 尺 

在 4.1.2 节 分 析 英 式 标 尺 的 应 用 程序 中 ， 我 们 考虑 共有 多 少 行 输出 这 一 基本 问题 。 该 输 
出 是 通过 初始 调用 draw_interval(c) 产生 的 ， 其 中 c 表示 中 央 刻 度 线 长度 。 这 是 该 算法 的 整 
体 效率 的 合理 基准 ， 因 为 输出 的 每 一 行 是 基于 一 个 对 draw. line 函数 的 调用 ， 以 及 对 draw_ 
interval 的 每 次 非 零 参数 递归 调用 恰好 产生 一 个 对 draw. line 的 直接 调用 。 

通过 检验 源 代码 和 递归 追踪 可 以 获得 直观 认识 。 我 们 知道 对 draw_interval(c) (c> 0) 的 
一 个 调用 产生 两 个 对 draw_interval(c — 1) 的 调用 和 一 个 单独 的 draw line 的 调用 。 我 们 将 依 
赖 这 些 客观 事实 来 证 明 以 下 的 声明 。 

命题 4-1: 对 于 c SO, 调用 draw interval(c) 函数 刚好 产生 25- 1 行 输出 。 

WEAR: 通过 归纳 法 (参见 3.4.3 节 )， 我 们 给 出 了 这 种 声明 的 正式 证 明 。 事 实 上 ， 归 纳 法 
是 用 于 证 明 递 归 过 程 正确 性 和 有 效 性 的 自然 数学 技术 。 在 标尺 的 这 个 例子 中 ， 我 们 注意 到 ， 
draw_interval(0) 的 应 用 程序 没有 输出 ， 并 以 此 作为 证 明 的 基本 情况 。 E 

更 一 般 的 是 ， 通 过 调用 draw interval(c) 函数 打印 的 行 数 比 通过 调用 draw. interval(c — 1) 
图 数 产 生 的 行 数 的 两 倍 还 多 1 一 一 因为 在 两 个 这 样 的 递归 调用 之 间 打 印 一 个 中 心 线 。 通 过 归 
纳 法 ， 我 们 计算 出 行 数 1+2(2 -1D=1l+2-2=2-1。 

这 个 证 明 表 明 ， 一 个 更 严格 的 被 称 为 递归 方程 的 数学 工具 可 用 于 分 析 递 归 算 法 的 运行 时 
间 。 在 12.2.4 节 对 递归 排序 算法 的 分 析 中 ， 我 们 会 讨论 这 种 技术 。 

执行 二 分 查找 

如 在 4.1.3 节 提 到 的 ， 考 虑 到 二 分 查找 算法 的 运行 时 间 ， 我 们 观察 到 二 分 查找 方法 的 每 


次 递归 调用 中 被 执行 的 基本 操作 次 数 是 恒定 的 。 因 此 ， 和 运行 时 间 与 执行 递归 调用 的 数量 成 正 
比 。 我 们 会 证 明 在 对 含有 n 个 元 素 的 队列 进行 二 分 查找 过 程 中 至 多 进行 [log n] 1 次 递归 调 
用 ， 并 且 得 出 以 下 声明 。 

命题 4-2: 对 于 含有 nn 个 元 素 的 有 序 序列 ， 二 分 查找 算法 的 时 间 复 杂 度 是 O(log n). 

证 明 : 为 了 证 明 这 一 命题 ， 一 个 重要 的 事实 是 : 在 每 次 递归 调用 中 ， 需 要 被 查找 的 候选 
条 目的 数量 是 由 一 个 值 给 出 的 。 这 个 值 为 

high - low + 1 

此 外 ， 每 次 递归 调用 之 后 ， 剩 下 的 候选 条 目的 数量 至 少 减少 一 半 。 上 有 具体 来 讲 ， 从 mid 的 定义 
可 知 ， 剩 下 的 候选 条 目的 数量 是 


(mid-1)-low +1 = ee "d epee wet ED = 


或 者 是 


2 
候选 条 目 最 初 为 n ; 在 进行 一 次 二 分 查找 调用 之 后 ， 它 至 多 是 n/2 ; 在 进行 第 二 次 调用 后 ， 
它 至 多 为 n/4 ; 以 此 类 推 。 一 般 情况 下 ， 在 进行 第 j 次 二 分 查找 调用 之 后 ， 剩 下 的 候选 条 目 
的 数量 至 多 是 n/2。 在 最 坏 的 情况 下 (一 次 不 成 功 的 查找 )， 当 没有 更 多 的 候选 条 目 时 递归 调 
用 停止 。 因 此 ， 进 行 递归 调用 的 最 大 次 数 ， 有 最 小 整数 r+， 使 得 


high—(mid+1)+1= high es nee 


n 

— <] 

y 
换言之 (回想 一 下 ， 当 对 数 底数 是 2 时 ， 省 略 对 数 底数 )，r > log nm。 因此， 有 7 =Liog 中 +1, 
这 意味 着 二 分 查找 的 时 间 复 杂 度 为 O(log n). gu 


计算 磁盘 空间 使 用 情况 

4.1 节 最 后 一 个 递归 算法 是 计算 在 文件 系统 的 特定 部 分 整体 磁盘 空间 使 用 情况 。 为 了 摘 
述 所 分 析 的 “问题 大 小 ”， 我 们 用 n 表示 所 考虑 文件 系统 的 特定 部 分 的 文件 系统 条 目的 数量 。 
(例如 ， 图 4-6 所 示 的 文件 系统 有 n(n = 19) 个 条 目 ) 

为 了 描述 disk usage 函数 初始 调用 的 累计 时 间 开 销 ， 我 们 必须 分 析 所 执行 的 递归 调用 
的 总 数 以 及 在 这 些 调 用 中 执行 的 操作 次 数 。 

首先 显示 刚好 及 n 次 函数 调用 的 递归 过 程 ， 尤 其 是 文件 系统 的 相关 部 分 的 每 个 条 目 对 
应 一 次 递归 调用 的 过 程 。 直 观 来 讲 ， 这 是 因为 对 于 文件 系统 的 特定 条 目 e 仅 进 行 一 次 disk_ 
usage 调用 ， 在 代码 段 4-5 的 for 循环 中 处理 包含 e 的 父 目 录 时 ， 将 只 检索 一 次 该 条 目 。 

为 了 形式 化 地 证 明 上 述 论证 ， 我 们 可 以 定义 每 个 条 目的 网 套 级 别 ， 比 如 定义 起 始 条 目的 
肉 套 级 别 为 0， 定义 直接 存储 在 该 条 目 中 所 有 条 目的 舱 套 级 别 为 1， 定 义 存 储 在 这 些 条 目 中 
所 有 条 目的 藤 套 级 别 为 2， 以 此 类 推 。 我 们 可 以 通过 归纳 法 证 明 在 风 套 等 级 为 的 各 条 上 日 上 
恰好 有 一 个 对 disk usage 函数 的 递归 调用 。 作 为 一 种 基本 情况 ， 当 = 0 时， 唯一 进行 的 递 
归 调 用 是 初始 调用 。 就 归纳 步骤 来 说 ， 一 旦 知道 在 艇 套 级 别 为 上 的 每 个 条 目 上 恰好 只 有 一 次 
递归 调用 ， 我 们 可 以 证 明 对 于 符 套 级 别 为 上 的 条 目下 的 条 目 e， 仅 从 处 理 包含 e 的 上 +1 级 条 
目的 for 循环 中 调用 一 次 。 

在 确定 了 文件 系统 的 每 个 条 目 有 一 个 递归 调用 之 后 ， 我 们 回 到 对 于 算法 整体 计算 时 间 的 
问题 上 来 。 或 许 我 们 认为 在 任何 单一 的 函数 调用 上 花 0(1) 的 时 间 将 是 非常 好 的 ， 但 事实 并 
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ARUN. BI UERR H E A [STE at B A 9A] HT PRÉC os.path.getsize 来 直接 计算 的 磁盘 
使 用 情况 ， 但 当 这 个 条 目 是 一 个 目录 时 ，disk_usage 函数 的 主体 包含 一 个 for 循环 ， 将 遍历 
这 个 目录 包含 的 所 有 条 目 。 在 最 坏 的 情况 下 ， 一 个 条 目 可 能 包含 2 - 1 个 其 他 条 目 。 

基于 这 种 推理 ， 我 们 可 以 得 出 这 样 的 结论 : AO (n 个 递归 调用 ， 并 且 每 个 调用 运行 
的 时 间 为 O(n)， 从 而 导致 总 的 运行 时 间 为 O (大 )。 虽 然 这 个 时 间 上 限 在 技术 上 是 正确 的 ， 
但 它 不 是 一 个 严格 意义 上 的 上 限 。 值 得 注意 的 是 ， 我 们 可 以 证 明 更 强 的 约束 : 对 于 disk_ 
usage 因数 的 递归 算法 可 以 在 O(n) 的 时 间 内 完成 ! 较 弱 的 约束 是 悲观 的 ， 因 为 它 假设 了 每 
个 目录 所 有 条 目 在 最 坏 情 况 下 的 数量 。 虽 然 可 能 一 些 目录 包含 的 条 目 数 量 与 成 正比 ,但 它 
们 不 可 能 每 个 都 含有 那么 多 的 条 目 。 为 了 证 明 这 个 更 有 力 的 声明 ， 我 们 选择 考虑 在 所 有 递归 
调用 中 for 循环 迭代 的 总 数 。 我 们 断言 刚好 有 n — 1 个 该 循环 的 这 种 迭代 。 这 一 声明 基于 这 
样 一 个 事实 ， 即 该 循环 的 每 次 迭代 进行 一 次 对 disk usage 函数 的 递归 调用 ， 并 且 已 经 得 出 结 
论 ， 即 对 disk usage 函数 共 进 行 了 n 次 调用 (包括 最 初 的 调用 )。 因 此 ， 我们 得 出 这 样 的 结 
i£: 有 O(n) 次 递归 调用 ， 每 次 递归 调用 在 循环 外 部 使 用 O(1) 的 时 间 ， 并 且 循 环 操作 的 总 数 
是 O(n)。 总 结 所 有 这 些 限制 条 件 ， 操 作 的 总 数 是 O(n). 

我 们 已 经 得 出 的 观点 比 前 面 递归 的 例子 更 先进 。 有 时 可 以 通过 考虑 累积 效应 获得 一 系列 
操作 更 严格 的 约束 ， 而 不 是 假设 每 个 操作 都 是 最 坏 的 情况 ， 这 种 思想 就 是 被 叫 作 分 期 偿还 的 
技术 (在 5.3 节 我 们 会 看 到 更 多 的 例子 )。 此 外 ， 文件 系统 是 隐 式 地 使 用 “ 树 ” 这 一 数据 结构 
的 例子 ， 磁 盘 使 用 (disk usage) 算法 实际 是 树 遍 历 算 法 的 一 种 表现 。 树 是 第 八 章 的 重点 ， 并 
且 关 于 磁盘 使 用 (disk usage) 算法 时 间 复 杂 度 是 O(n) 这 一 论证 将 在 8.4 节 中 树 的 遍历 中 加 
以 推广 。 


4.3 递归 算法 的 不 足 

虽然 递归 是 一 种 非常 强大 的 工具 ,但 它 也 很 容易 被 误 用 。 在 本 节 中 ， 我 们 检查 了 几 个 问 
题 ， 其 中 一 个 糟糕 的 递归 实现 导致 严重 的 效率 低下 ， 并 讨论 了 一 些 用 于 识别 和 避免 这 种 陷阱 
的 策略 。 

首先 回顾 3.3.3 节 的 定义 : 元 素 唯一 性 问题 。 我 们 可 以 用 下 面 的 递归 公式 来 确定 序列 
中 所 有 的 nn 个 元 素 是 否 都 是 唯一 的 。 作 为 一 种 基本 情况 ， 当 n = 1 时 ， 明 显 元 素 是 唯一 的 。 
对 于 n 三 2， 当 且 仪 当 第 一 个 n -1 个 元 素 是 唯一 的 、 最 后 的 n — 1 项 是 唯一 的 并 且 第 一 个 
元 素 和 最 后 一 个 元 素 不 同时 ， 元素 是 唯一 的 (因为 这 是 唯一 一 对 子 情况 中 没有 被 检查 的 元 
素 )。 代 码 段 4-6 给 出 了 基于 这 种 思想 的 递归 实例 ， 称 其 为 unique3 (与 第 3 章 的 uniquel 和 
unique2 区 分 开 来 )。 


代码 段 4-6 ”测试 元 素 唯 一 性 的 递归 函数 unique3 
1 def unique3(S, start, stop): 
2  """Return True if there are no duplicate elements in slice S[start:stop]." " " 
3 if stop — start <= 1: return True # at most one item 
4 elif not unique 3(S, start, stop—1): return False # first part has duplicate 
5 elif not unique 3(S, start--1, stop): return False # second part has duplicate 
6 else: return S[start] != S[stop—1] # do first and last differ? 


不 幸 的 是 ， 这 是 一 个 效率 非常 低 的 递归 使 用 。 非 递归 部 分 的 每 次 调用 所 使 用 的 时 间 为 O ( 1 )， 
所 以 总 的 运行 时 间 将 正比 于 递归 调用 的 总 数 。 为 了 分 析 这 个 问题 ,我 们 用 n 表示 所 考虑 的 条 
目 总 数 ， 即 n = stop — start. 


如 果 n = 1， 则 unique3 的 运行 时 间 为 O (1)， 因 为 在 这 种 情况 下 ， 不 进行 递归 调用 。 
一 般 情况 下 ， 最 重要 的 发 现 是 ， 对 于 一 个 大 小 为 n 的 问题 ， 对 uniques 函数 的 单一 调用 可 能 
导致 对 两 个 大 小 为 n — 1 的 问题 的 unique3 艺 数 调用 。 反 过 来 ， 这 两 个 大 小 为 n - 1 的 调用 
可 能 又 产生 4 个 大 小 为 n - 2 的 调用 (各 两 个 )， 然 后 是 8 个 大 小 为 n -3 的 调用 ， 以 此 类 推 。 
因此 ,在 最 坏 的 情况 下 ， 郴 数 调 用 的 总 数 由 如 下 几何 求 和 公式 给 出 
1+2+4+4+--4+2""! 
这 等 于 是 由 命题 3-5 给 出 的 。 因 此 函数 unique3 的 时 间 复 杂 度 为 0(2”))。 难 以 置信 ， 这 
个 函数 解决 元 素 唯一 性 问题 的 效率 如 此 低下 。 其 低 效率 不 是 因为 使 用 递归 ， 而 是 缘 于 所 使 用 
的 递归 不 佳 这 样 一 个 事实 ， 这 是 我 们 在 练习 C-4.11 中 要 解决 的 问题 。 
一 个 低 效 的 计算 斐 波 那 契 数 的 递归 算法 
在 1.8 节 中 ， 我 们 介绍 了 生成 斐 波 纳 契 数 的 过 程 ， 可 以 递归 地 定义 如 下 : 
Fy-0 
F=] 
F,=F,-21+F,-, forn>1 
恰巧 ， 基 于 上 述 定义 的 直接 实现 就 是 代码 段 4-7 中 所 示 的 函数 bad_fibonacci， 该 函数 通 
过 执行 两 个 非 基 本 情况 的 递归 调用 来 计算 斐 波 纳 契 数 。 
代码 段 4-7 使 用 二 分 递归 计算 第 n 个 斐 波 那 契 数列 
| def bad_fibonacci(n): 


2 "=" Return the nth Fibonacci number.””" 
ifn <= 1: 
4 return n 
5 else: 
6 return bad_fibonacci(n—2) + bad_fibonacci(n—1) 


ANSE AYE, DOPE AY SE AB SUB SK AY) EL HE SB eB RS AE AR. Wa AT X 
VETESR n MIEI AY ites BET ICT PR ET SHH AY TA, LORE, JH C, 表示 在 bad_ 
fibonacci(n) 执行 中 进行 的 调用 次 数 。 然 后 ， 我 们 可 以 得 到 以 下 的 一 系列 值 : 

co= 1 

ci=1 
C=1+cot+c=1+1+1=3 
c=1+et+c=1+1+3=5 
C=1+c+i+c=1+3+5=9 
Cs=1+e3;+ce4=14+54+9=15 
Co=1lteyt+es=1+9+15=25 
c7=1t+e5+e6=14+154+25=41 
Cg =1t+e6+ce7=1+25+41 =67 

如 果 遵 循 这 个 模式 继续 下 去 ， 我 们 可 以 看 到 ， 对 于 每 两 个 连续 的 指标 ， 后 者 调用 的 数量 
将 是 前 者 的 2 倍 以 上 。 也 就 是 说 ，cs 是 co 的 两 倍 以 上 ，cs 是 cs 的 两 倍 以 上 ，cs 是 cs 的 两 倍 
以 上 ， 以 此 类 推 。 因 此 c, > 2” 意味 着 bad fibonacci(n) 使 得 调用 的 总 数 是 n 的 指数 级 。 

一 个 高 效 的 计算 斐 波 那 契 数列 的 递归 算法 

我 们 之 所 以 尝试 使 用 这 个 不 好 的 递归 公式 ， 是 因为 第 个 斐 波 那 契 数 取决 于 前 两 个 值 ， 

BU F,-; T F,-.. 但 是 请 注意 ， 计 算出 已 -> 之 后 ， 计 算 F,_ 1 的 调用 需要 其 自身 递归 调用 以 
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计算 已 ，， 因 为 它 不 知道 先前 级 别 的 调用 中 被 计算 的 书 -， 的 值 。 这 是 一 个 重复 的 操作 。 更 
糟 的 是 ， 这 两 个 调用 都 需要 (重新 ) 计算 Foi 的 值 ， 书 -的 计算 也 一 样 。 正 是 这 种 滚雪球 
效应 ， 导 致 bad fibonacci 函数 有 指数 倍 的 运行 时 间 。 

我 们 可 以 更 有 效 地 使 用 递归 来 计算 ,， 这 种 递归 的 每 次 调用 只 进行 一 次 递归 调用 。 要 
做 到 这 一 点 ， 我 们 需要 重新 定义 函数 的 期 望 值 。 我 们 定义 了 一 个 递归 函数 ， 该 函数 返回 一 对 
连续 的 斐 波 那 契 数列 (Fn F, -0)， 并 且 使 用 约定 ,_1 = 0， 而 不 是 让 函数 返回 第 冯 个 斐 波 那 契 
数 这 一 单一 数值 。 用 返回 一 对 连续 的 斐 波 那 契 数列 代替 返回 一 个 值 ， 虽 然 这 似乎 是 一 个 更 大 
的 负担 ， 但 从 递归 这 一 级 来 看 ， 通 过 这 个 额外 的 信息 之 后 使 得 递归 更 容易 继续 这 一 进程 ( 它 
可 以 让 我 们 避免 再 计算 第 二 个 值 ， 这 个 值 在 递归 中 是 已 知 的 ) 。 代 码 段 4-8 给 出 了 基于 这 种 
策略 的 一 个 实例 。 


代码 段 4-8 ”使 用 线性 递归 计算 第 n 个 慕 波 那 契 数 


1 def good fibonacci(n): 

2  """Return pair of Fibonacci numbers, F(n) and F(n-1).""" 
3 ifn <= 1: 

4 return (n,0) 

5 else: 

6 (a, b) = good_fibonacci(n—1) 

7 return (a+b, a) 





RCX IP. HTAA, 388 IS RS eV ARRE a A UH Vig] BI DK Sl RAR PRI EA 
X. bad fibonacci 函数 使 用 指数 数量 级 的 时 间 。 我 们 认为 函数 good. fibonacci(n) 使 用 的 时 
间 为 0(n)。 每 次 对 good fibonacci(n) 函数 的 递归 调用 都 使 参数 n 减 小 1， 因 此 ， 弟 归 追 踪 包 
括 一 系列 的 个 函数 调用 。 因 为 每 个 调用 的 非 递 归 工 作 使 用 固定 的 时 间 ， 所 以 整体 的 运算 执 
行 在 O(n) 的 时 间 内 完成 。 


Python 中 的 最 大 递归 深度 


在 递归 的 误 用 中 ， 男 一 个 危险 就 是 所 谓 的 无 限 北 归 。 如 果 每 个 递归 调用 都 执行 男 一 个 递 
归 调 用 ， 而 最 终 没有 达到 一 个 基本 情况 ， 那 我 们 就 有 一 个 无 穷 级 数 的 此 类 调用 。 这 是 一 个 致 
命 的 错误 。 无 限 递归 会 迅速 耗 尽 计算 资源 ， 这 不 仅 是 因为 CPU 的 快速 使 用 ， 而 且 是 由 于 每 
个 连续 的 调用 会 创建 需要 额外 内 存 的 活动 记录 。 一 个 明显 不 合 语 法 的 递归 示例 如 下 : 


def fib(n): 
return fib(n) # fib(n) equals fib(n) 


然而 ， 还 有 更 微小 的 错误 会 导致 无 限 递归 。 回 顾 我 们 在 代码 段 4-3 中 二 分 查找 的 实现 ， 在 最 
后 的 情况 下 (第 17 行 )， 我 们 在 序列 的 右 半 部 分 ,特别 是 索引 从 mid + 1 到 high 这 部 分 ， 进 
行 一 个 递归 调用 。 那 一 行 反而 被 写成 

return binary_search(data, target, mid, high) # note the use of mid 
这 可 能 导致 一 个 无 限 递 归 。 尤 其 是 在 搜索 范围 内 的 两 个 元 素 时 ， 有 可 能 在 同一 范围 内 进行 北 
归 调 用 。 

程序 员 应 该 确保 每 个 递归 调用 以 某 种 方式 逐步 向 基本 情况 发 展 (例如 ， 通 过 使 用 随 每 次 
调用 减少 的 参数 值 ) 。 然 而 ， 为 了 避免 无 限 递归 ，Python 的 设计 者 做 了 一 个 有 意 的 决定 来 限 
制 可 以 同时 有 效 激活 的 函数 的 总 数 。 这 个 极限 的 精确 值 取 决 于 Python 分配， 但 典型 的 默认 
值 是 1000。 如 果 达 到 这 个 限制 ，Python 解释 器 就 生成 了 一 个 RuntimeError 消息 : 超过 最 大 


递归 深度 (maximum recursion depth exceeded) 。 

对 于 许多 合法 的 递归 应 用 ，1000 zip E PROC HY PR il Ve] A A To MA, binary search 
PRA ( 见 4.1.3 节 ) 的 递归 深度 为 O(log n), FLA SEGA SIR GBA BS BR bl, 需要 有 277 个 元 
素 ( 远 远 超过 宇宙 中 原子 数量 的 估计 值 )。 人 然而， 在 下 一 节 中 ， 我 们 将 讨论 一 些 弟 归 深 度 与 n 
成 正比 的 算法 。Python 在 递归 深度 上 的 人 为 限制 可 能 会 破坏 这 些 其 他 的 合法 计算 。 

幸运 的 是 ，Python 解释 需 可 以 动态 地 重 置 ， 以 更 改 默认 的 递归 限制 。 这 是 用 一 个 名 为 
sys 的 模块 来 实现 的 ， 该 模块 支持 getrecursionlimit 函数 和 setrecursionlimit PAL, ix 26 PR 
的 使 用 示例 如 下 : 


import sys 
old — sys.getrecursionlimit( ) # perhaps 1000 is typical 
sys.setrecursionlimit(1000000) # change to allow 1 million nested calls 


44 递归 的 其 他 例子 
章 的 剩余 部 分 将 给 出 使 用 递归 的 其 他 例子 。 我 们 通过 考虑 在 一 个 激活 的 函数 体内 开始 
的 递归 调用 的 最 大 数量 来 组 织 我 们 的 介绍 。 
e 如 果 一 个 递归 调用 最 多 开始 一 个 其 他 递归 调用 ， 我 们 称 之 为 线性 递归 (linear 
recursion ) 。 
e 如 果 一 个 递归 调用 可 以 开始 两 个 其 他 递归 调用 ， 我们 称 之 为 二 路 递归 (binary 
recursion ) 。 
e 如 果 一 个 递归 调用 可 以 开始 三 个 或 者 更 多 其 他 递归 调用 ， 我 们 称 之 为 多 重 递归 


(multiple recursion). 


4.4.1 线性 递归 


如 果 一 个 递归 函数 被 设计 成 使 得 所 述 主体 的 每 个 调用 至 多 执行 一 个 新 的 递归 调用 ， 这 被 
称 为 线性 递归 。 到 目前 为 止 ， 在 我 们 已 经 看 到 的 递归 函数 中 ， 阶 乘 函 数 的 实现 ( 见 4.1.1 节 ) 
和 good fibonacci 函数 ( 见 4.3 节 ) 是 线性 递归 鲜明 的 例子 。 更 有 趣 的 是 ， 尽 管 在 名 称 中 有 
“binary”， 二 分 查找 算法 ( 见 4.1.3 节 ) 也 是 线性 递归 的 一 个 例子 。 二 分 查找 的 代码 ( 见 代码 
Et 4-3 ) 包括 一 个 具有 两 个 分 支 的 情况 分 析 ， 这 两 个 分 支 产生 递归 调用 ， 但 在 函数 体 的 一 个 
具体 执行 期 间 只 有 其 中 一 个 调用 可 以 被 执行 。 

正如 在 4.1.1 节 描 绘 的 阶乘 函数 ( 见 图 4-1) 一 样 ， 线 性 递归 定义 的 一 个 结果 是 任何 递归 
追踪 将 表现 为 一 个 单一 的 调用 序列 。 注 意 ， 线 性 递归 术语 反映 递归 追踪 的 结 sf, 而 不 是 运行 
时 间 的 渐 近 分 析 ， 例 如 ， 我 们 已 经 看 到 二 分 查找 的 时 间 复 杂 度 为 O(log n). 

元 素 序列 的 递归 求 和 

线性 递归 可 以 作为 一 个 有 用 的 工具 来 处 理 数据 序列 ， 例 如 Python 列表 。 例 如 ， 假 设想 
要 计算 一 个 含有 nn 个 整数 的 序列 5S 的 和 。 我 们 可 以 使 用 线性 递归 解决 这 个 求 和 问题 。 通 过 观 
察 发现 ， 如 果 n = 0, 5 中 所 及 个 整数 的 总 和 是 0; mu. 序列 S$ 的 和 应 为 S 中 的 前 n-1 
个 整数 的 总 和 加 上 5 中 最 后 一 个 元 素 ( 见 图 4-9 )。 
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图 4-9 通过 前 n 一 1 个 整数 的 总 和 加 上 最 后 一 个 数 ， 递归 地 计算 序列 的 和 
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基于 这 个 客观 事实 ， 代 码 段 4-9 实现 了 计算 数字 序列 和 的 递归 算法 
代码 段 4-9 ”使 用 线性 递归 计算 序列 元 素 的 和 


| def linear_sum(S, n): 
2 """ Return the sum of the first n numbers of sequence S.""" 
3 ifn=—0: 
4 return 0 
5 else: 

6 return linear sum(S, n—1) + S[n- 1] 


图 4-10 给 出 了 linear sum 函数 递归 追踪 的 一 个 小 例子 。 对 于 大 小 为 n 的 输入 ，linear_ 
sum 算法 执行 了 n+ 1 次 函数 调用 。 因 此 ， 
这 将 需要 O(n) 的 时 间 ， 因 为 它 花费 恒定 的 
时 间 执 行 每 次 调用 的 非 递归 部 分 。 此 外 ,我 osa Mme vr 
们 还 可 以 看 到 ， 这 个 算法 使 用 的 内 存 空 间 "us Weise g 
(除了 序列 S) 也 是 O(n)， 正 如 在 做 出 最 后 一 -— retun T4 $(21=7+6= 13 
次 的 递归 调用 ( 当 n =0) 时 的 递归 追踪 中 ， | | 

return 4+S[1]=4+3=7 
T 


对 n+ 1 个 活动 记录 的 任何 一 个 我 们 都 使 用 ; 
-— 


国定 数量 的 内 存 空间 。 


使 用 递归 逆 置 序列 
接 下 来 ， 让 我 们 考虑 逆 置 含有 二 个 元 素 

图 4-10 对 1linear sum(S, 5) 执行 的 递归 8 追踪， 其 
中 输入 的 参数 是 S = [4, 3, 6, 2, 8] 







return 15 + S[4] = 15 + 8 = 23 







return 0 + S[0]=0+4=4 
b 


return 0 


的 序列 S 的 问题 ， 即 第 一 个 元 素 成 为 最 后 一 
个 元 素 ， 第 二 个 元 素 成 为 倒数 第 二 个 元 素 ， 
以 此 类 推 。 我 们 可 以 使 用 线性 递归 解决 这 个 
问题 ， 通 过 观察 ， 可 以 通过 对 调 第 一 个 元 素 和 最 后 一 个 元 素 ， 之 后 递归 地 反 置 剩余 元 组 ， 这 
样 就 可 以 完成 序列 的 逆 置 。 按 照 约 定 ， 我 们 把 第 一 次 调用 的 算法 记 作 reverse(S, 0, len(S))。 
代码 段 4-10 给 出 了 这 个 算法 的 一 个 实现 。 


代码 段 4-10 ”使 用 线性 递归 逆 置 序列 的 元 素 


def reverse(S, start, stop): 


] 

2  """Reverse elements in implicit slice S[start:stop]." " " 

3 if start < stop — 1: # if at least 2 elements: 
4 S[start], S[stop—1] = S[stop— 1], S[start] # swap first and last 

5 reverse(S, start--1, stop—1) # recur on rest 


需要 注意 的 是 ， 有 两 个 隐 含 的 基本 情况 场景 : 当 
start == stop 时 ， 这 个 隐 含 的 范围 是 空 的 ， 当 start == stop — 1 CELO AE. S LS 
时 ， 这 个 隐 含 的 范围 仅 含有 一 个 元 素 。 这 两 种 情况 中 的 | i? 
任何 一 个 ， 都 不 需要 再 执行 任何 操作 ， 因 为 含有 零 个 
或 者 一 个 元 素 的 序列 与 它 的 逆 置 序列 是 完全 相等 的 。 当 
其 他 情况 调用 递归 时 ， 我们 都 保证 使 过 程 朝 着 一 个 基本 
情况 发 展 ， 不 同 的 是 ，stop — start 每 次 调用 减 小 两 个 值 [519] s 有 a] 

( 见 图 4-11). WR n 是 偶数 ,最 终 将 达到 start == stop 这 5 | 9 [s[2] ul 4 |4 
种 情况 ; 如 果 n 是 奇数 ,最终 会 达到 start == stop —13X 图 4-11 逆 置 一 个 序列 的 递归 追踪 。 
种 情况 。 阴影 部 分 是 尚未 被 道 置 的 
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上 面 的 观点 意味 着 代码 段 4-10 的 递归 算法 确保 在 进行 1+ 2 ica er RU ét 


因为 每 次 调用 包含 固定 数量 的 工作 ， 所 以 整个 过 程 运 行 时 间 为 O(n)。 
用 于 计算 窜 的 递归 算法 
再 举 一 个 线性 递归 应 用 的 例子 ， 即 数 x 的 n 次 因 问 题 ， 其 中 是 任意 的 非 负 整数 。 也 就 
EM, RIERA AA (power function)， 其 定义 为 power(x, n) = xw。( 对 于 这 个 讨论 ， 
我 们 使 用 的 名 字 为 “power”， 以 便 与 同样 能 提供 这 个 功能 的 built-in 函数 区 分 ) 对 于 这 个 问 
题 ， 我 们 将 考虑 两 个 不 同 的 递归 公式 ， 这 两 个 公式 会 导致 算法 有 不 同 的 性 能 。 
对 于 n>0， 遵 从 x"=x x” 这 个 事实 的 一 个 简单 的 递归 定义 。 
LH n-0 
posean x-power(x,n—1l) ”其 他 
代码 段 4-11 给 出 了 这 个 定义 产生 的 一 个 递归 算法 。 
代码 段 4-11 用 简单 的 递归 计算 容 函 数 
| def power(x, n): 
2  """Compute the value x««n for integer n." "" 
3 ifn ==0: 
4 return 1 
5 else: 
6 return x * power(x, n—1) 


这 个 版 本 的 power(x, n) 函数 递归 调用 的 时 间 复 杂 度 为 O(n)。 它 的 递归 追踪 和 图 4-1 中 
阶乘 函数 的 递归 追踪 的 结构 非常 相似 ， 都 是 每 次 调用 参数 减 1， 并 且 每 n + 1 层 执行 固定 数 
量 的 工作 。 


不 过 ， 有 一 种 更 快 的 方法 用 以 计算 宕 函数 ， 即 采用 了 平方 技术 的 定义 。 ik= [2 ls 


递归 的 层 数 (Python 中 表示 为 W/2 )。 我 们 考虑 Q^? 这 种 表示 : 当 n 是 偶数 时 ， [|= 因 
此 (x*) =(=) =x"; 当 n 是 奇数 时 ， Epes y= x" AE x= x. (y, 比如 23 = 
2 .2%. 2%。 通 过 这 个 分 析 ， 我们 可 以 得 出 如 下 的 递归 定义 : 

1 n=0 


Power(x,n) -4x* [oower (<2) 1>>0 是 奇数 


[mw EI n0 (53k 


je s eb ple power | 2 powe(s 2|), 那么 实现 这 个 递归 的 追 


踪 表 示 要 进行 O(n) 次 调用 。 我 们 可 以 通过 计算 power | 和 |) 作 为 部 分 结果 ， 然后 乘 以 它 本 
身 来 显著 地 减少 执行 的 操作 。 代 码 段 4-12 给 出 了 基于 这 种 递归 定义 的 一 个 示例 。 
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代码 段 4-12 ”使 用 重复 的 平方 计算 窜 函 数 


def power(x, n): 


| 

2 """ Compute the value xn for integer n." "" 

3 ifn ==0: 

E return 1 

5 else: 

6 partial — power(x, n // 2) # rely on truncated division 

7 result — partial * partial 

8 in 952:——4 # if n odd, include extra factor of x 
9 result *— x i 

10 return result 


为 了 说 明 改 进 算法 的 执行 ， 图 4-12 给 出 了 
计算 power(2, 13) 函数 的 递归 追踪 。 

为 了 分 析 修 正 算法 的 运行 时 间 ， 我 们 观察 
到 函数 power(x, n) 每 个 递归 调用 中 的 指数 最 多 
是 之 前 调用 的 一 半 。 如 我 们 在 二 分 查找 的 分 析 中 
所 看 到 的 ， 在 变 成 1 或 者 更 少 之 前 ， 我 们 可 以 
用 2 BR n 的 时 间 的 数量 级 是 O(log n)。 因 此 ， 新 
FAR HI FE KATE O(log n) 次 递归 调用 。 每 个 单 
独 的 函数 的 激活 执行 0(1) 个 操作 (不 包括 递归 
调用 )， 所 以 计算 函数 power(x, n) 操作 的 总 数 是 
O(log n)。 在 原始 的 时 间 复 杂 度 为 O(n) 的 算法 上 这 是 一 个 显著 的 改进 。 

在 减少 内 存 使 用 方面 ， 改 进 版 本 显著 节约 了 内 存 。 第 一 个 版 本 的 递归 深度 为 0(n)， 因 
此 O(n) 个 激活 记录 同时 被 存储 在 内 存 中 。 因 为 改进 版 本 的 递归 深度 是 O(log n)， 其 所 用 内 
存 也 是 O(log n). 


4.4.0 二 路 递归 

当 一 个 函数 执行 两 个 递归 调用 时 ， 我 们 就 说 它 使 用 了 二 路 递归 。 我 们 已 经 列举 了 二 路 
递归 的 几 个 例子 ， 最 具 代 表 性 的 是 绘制 一 个 英 式 标尺 ( 见 4.1.2 节 ), 或 者 是 4.3 节 的 bad_ 
fibonacci 函数 。 作 为 二 路 递归 的 另 一 个 应 用 ， 让 我 们 回顾 一 下 计算 序列 SAY n 个 元 素 之 和 
问题 。 计 算 一 个 或 零 个 元 素 的 总 和 是 微不足道 的 。 在 有 两 个 或 者 更 多 元 素 的 情况 下 ， 我 们 可 
以 递归 地 计算 前 一 半 元 素 的 总 和 和 后 一 半 元 素 的 总 和 ， 然 后 把 这 两 个 和 加 在 一 起 。 在 代码 段 
4-13 中 ， 对 于 这 样 一 个 算法 ， 实 现 最 初 是 以 binary. sum(A, 0, len(A)) 而 被 调用 的 。 


代码 段 4-13 ”用 二 路 递归 计算 一 个 序列 的 元 素 之 和 






return 64 * 64 « 2 = 8192 
À 
T return 8 * 8= 64 
à 
al retum 2*2*2=8 
: 


power(2,0) 


图 4-12 Xf power(2, 13) 函数 执行 的 递归 追踪 









return 1 * 1*222 


return 1 





def binary_sum(S, start, stop): 


| 

2  """Return the sum of the numbers in implicit slice S[start:stop]." " " 

3 if start >= stop: # zero elements in slice 

4 return 0 

5 elif start == stop—1: # one element in slice 

6 return S[start] 

7 else: # two or more elements in slice 
8 mid = (start + stop) // 2 

9 return binary_sum(S, start, mid) + binary_sum(S, mid, stop) 


为 了 分 析 算 法 binary sum, HA THEEL, RIZE K n ON 2 I] ECCE REI TEL 
图 4-13 显示 了 binary sum(0, 8) 函数 执行 的 递归 追踪 。 我 们 在 每 个 圆 角 矩形 中 添加 一 个 标 


签 ， 这 个 标签 是 所 调用 的 参数 start:stop 的 值 。 每 次 递归 调用 后 ， vc 因 
此 递归 的 深度 为 1 logo n. AE, binary sum 函数 使 用 O(log n) 数量 级 的 额外 空间 ， 与 
代码 段 4-9 HP linear. sum 函数 使 用 O(n) 数量 级 的 空间 相 比 ， 这 是 一 个 巨大 的 进步 。 然 
Mi, binary sum 函数 的 时 间 复 杂 度 是 O(n), FAA 2n - 1 函数 次 调用 ， 每 次 都 需要 恒定 的 
时 间 。 











图 4-13 binary sum(0, 8) 执行 的 递归 追踪 


4.4.3 ”多重 递归 


从 二 路 递归 可 知 ， 我 们 将 多 重 递归 定义 为 一 个 过 程 ， 在 这 个 过 程 中 ， 一 个 函数 可 能 会 执 
行 多 于 两 次 的 递归 调用 。 对 于 一 个 文件 系统 磁盘 空间 使 用 状况 分 析 的 递归 ( 见 4.1.4 节 ) 是 
多 重 递归 的 一 个 例子 ， 因 为 在 一 个 调用 期 间 ， 递归 调用 执行 的 次 数 等 于 在 文件 系统 给 定 目 录 
中 条 目的 数量 。 

男 一 个 多 重 递 归 的 常见 应 用 是 通过 枚 举 各 种 配置 来 解决 组 合 迹 题 的 情况 。 例 如 ， 以 下 是 
所 谓 的 求 和 谜 题 的 所 有 实例 

pot + pan = bib 
dog + cat = pig 
boy + girl = baby 

为 了 解决 这 样 的 迹 题 ， 我 们 需要 分 配 唯 一 的 数字 (B 0, 1, …, 9) 给 方程 中 的 每 个 字母 ， 
以 便 使 方程 为 真 。 通 常情 况 下 ， 我们 通过 人 工 对 特殊 问题 的 观察 解决 这 样 一 个 迹 题 ， 这 个 
特殊 问题 即 解决 并 测试 每 个 配置 的 正确 性 以 消除 配置 (也 就 是 数字 与 字母 的 可 能 部 分 分 配 )， 
直到 可 以 得 出 可 行 的 配置 。 

但 是 ， 如 果 可 能 配置 的 数量 不 是 太 大 ， 我 们 可 以 用 计算 机 简单 地 列举 所 有 可 能 性 ， 并 测 
试 每 一 个 可 能 ， 而 不 需要 任何 人 工 的 观察 。 此 外 ， 这 种 算法 可 以 以 一 种 系统 的 方式 使 用 多 重 
递归 得 出 正确 的 配置 。 代 码 段 4-14 给 出 了 这 样 一 个 算法 的 伪 代 码 。 为 了 确保 描述 足以 被 其 
他 问题 使 用 ， 这 个 算法 枚 举 并 测试 所 有 长 度 为 的 序列 ， 而 且 不 与 给 定 全 集 UU 的 元 素 重 复 。 
我 们 通过 以 下 步骤 创建 含有 上 个 元 素 的 序列 : 

1) 递归 生成 含有 Kk 一 1 个 元 素 的 序列 。 

2) 附加 一 个 元 素 到 每 个 这 样 的 未 包含 该 元 素 的 序列 中 。 

在 算法 执行 的 整个 过 程 中 ,我 们 使 用 一 个 集合 U 来 跟踪 不 包含 在 当前 序列 中 的 元 素 ， 
从 而 当 且 仅 当 元 素 e 在 U 中 时 ， 它 还 未 被 使 用 。 

看 待 代码 段 4-14 中 算法 的 另 一 种 方式 是 它 列举 U 所 有 可 能 大 小 为 的 子 集 ， 并 且 测 试 
每 个 子 集 ， 这 些 子 集 是 问题 的 可 能 解决 方案 之 一 。 

对 于 求 和 问题 ，U = {0, 1, 2, 3, 4, 5,6, 7, 8, 9} ， 并 且 序 列 中 的 每 个 位 置 对 应 一 个 给 定 的 
字母 。 例 如 ， 第 一 个 位 置 可 以 代表 2， 第 二 个 位 置 代表 o， 第 三 个 位 置 代表 ”， 以 此 类 推 。 
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代码 段 4-14 ”通过 枚 举 和 测试 所 有 可 能 的 配置 来 解决 组 合 谜 题 


Algorithm PuzzleSolve(k,S,U): 
Input: An integer k, sequence S, and set U 
Output: An enumeration of all k-length extensions to S using elements in U 
without repetitions 
for each e in U do 
Add e to the end of S 
Remove e from U {e is now being used} 
if k == 1 then 
Test whether S is a configuration that solves the puzzle 
if S solves the puzzle then 
return “Solution found: ”9 


else 

PuzzleSolve(k—1,S,U) {a recursive call} 
Remove e from the end of S 
Add e back to U leis now considered as unused} 


图 4-14 显示 了 PuzzleSolve(3, S, U) 函数 调用 的 递归 追踪 ， 其 中 S 为 空 并 且 7 (a, b, cj. 
这 个 执行 生成 并 测试 了 a, b, c 三 个 字符 的 所 有 排列 。 注 意 初 始 调用 进行 三 次 递归 调用 ， 其 中 
每 一 个 调用 又 进行 两 次 甚至 更 多 次 调用 。 在 一 个 包含 四 个 元 素 的 集合 E, WERE AHT 
了 PuzzleSolve(3, S, U)， 那 么 初始 调用 可 能 已 经 进行 了 四 项 递归 调用 ， 其 中 每 一 个 调用 将 有 
一 个 追踪 一 一 类 似 于 图 4-14 描述 的 一 样 。 


PuzzleSolve(3, (), {a,b,c}) 









PuzzleSolve(2, a, {b,c}) PuzzleSolve(2, c, {a,b}) 

PuzzleSolve(1, ab,{c}) ( PuzzleSolve(1, ba, {c}) ) C PuzzleSolve(1, ca, (b) 
abc bac cab 

PuzzleSolve(1, ac, {b}) ( PuzzleSolve(l, be, {a}) ) PuzzleSolve(1, cb, {a}) 
acb bea cba 


图 4-14  PuzzleSolve(3, S, U) 函数 执行 的 递归 追踪 


PuzzleSolve(2, b, {a,c}) 





































4.5 设计 递归 算法 
一 般 来 说 ， 使 用 递归 的 算法 通常 具有 以 下 形式 : 
e 对 于 基本 情况 的 测试 。 首 先 测试 一 组 基本 情况 (至少 应 该 有 一 个 )。 这 些 基 本 情况 应 
该 被 定义 ， 以 便 每 个 可 能 的 递归 调用 链 最 终 会 达到 一 种 基本 情况 ， 并 且 每 个 基本 情 
况 的 处 理 不 应 使 用 递归 。 
e 递归 。 如 果 不 是 一 种 基本 情况 ， 则 执行 一 个 或 多 个 递归 调用 。 这 个 递归 步骤 可 能 包 
括 一 个 测试 ， 该 测试 决定 执行 哪 几 种 可 能 的 递归 调用 。 我 们 应 该 定义 每 个 可 能 的 递 
归 调 用 ， 以 便 使 调用 向 一 种 基本 情况 靠近 。 
参数 化 递归 
要 为 一 个 给 定 的 问题 设计 递归 算法 ， 考 虑 我 们 可 以 定义 的 子 问题 的 不 同方 式 是 非常 有 用 
的 ， 该 子 问题 与 原始 问题 有 相同 的 总 体 结构 。 如 果 很 难 找到 需要 设计 递归 算法 的 重复 结构 ， 
解决 一 些 具体 问题 有 时 是 有 用 的 ， 这 样 可 以 看 出 子 问题 应 该 如 何 定义 。 


一 个 成 功 的 递归 设计 有 时 需要 重新 定义 原来 的 问题 ， 以 便 找到 看 起 来 相似 的 子 问题 。 这 
通常 涉及 参数 化 函数 的 特征 码 。 例 如 ， 在 一 个 序列 中 执行 二 分 查找 算法 时 ， 对 调用 者 的 自 
然 函 数 特 征 码 将 显示 为 binary_search(data, target)。 不 过 ,在 4.1.3 节 中 ,我 们 调用 特征 码 
binary search(data, target, low, high) 定义 函数 ， 并 且 使 用 额外 的 参数 说 明子 列表 作为 递归 过 
程 。 对 于 二 分 查找 来 说 ， 在 参数 化 方面 的 这 个 改变 是 至 关 重 要 的 。 如 果 坚 持 简便 的 特征 值 
binary search(data, target)， 在 列表 的 一 半 进 行 搜索 的 唯一 方法 可 能 是 建立 一 个 只 含有 这 些 元 
素 的 新 列表 并 且 把 它 作为 第 一 个 参数 。 然 而 ， 复 制 列 表 的 一 半 已 经 需要 O(n) 的 时 间 ， 这 就 
否定 了 二 分 查找 算法 全 部 的 优点 。 

如 果 希 望 给 一 个 像 二 分 查找 这 样 的 算法 提供 一 个 简洁 的 公共 接口 ， 而 不 会 干扰 用 户 的 
其 他 参数 ， 那 么 标准 的 技术 是 创建 一 个 有 简洁 接口 的 公共 函数 ， 比 如 binary_search(data, 
target)， 然 后 让 它 的 函数 体 调 用 一 个 非 公 共 的 效用 函数 ， 这 个 效用 函数 含有 我 们 所 希望 的 递 
BK, 

你 会 发 现 我 们 对 本 章 其 他 几 个 例子 的 递归 类 似 地 进行 了 重新 参数 化 (例如 ，reverse、 
linear sum 及 binary_ sum). fF good fibonacci 函数 的 实现 中 ， 通 过 有 意 加 强 返 回 的 期 望 (在 
这 种 情况 下 ， 返 回 的 是 一 对 数字 而 不 是 一 个 数字 )， 我 们 看 到 了 一 种 用 以 重新 定义 递归 的 不 
同方 法 。 


4.6 消除 尾 递归 

算法 设计 的 递归 方法 的 主要 优点 是 ， 它 使 我 们 能 够 简洁 地 利用 重复 结构 呈现 诸多 问题 。 
通过 使 算法 描述 以 递归 的 方式 利用 重复 结构 ， 我 们 经 常 可 以 避 开 复杂 的 案例 分 析 和 肉 套 循 
环 。 这 种 方法 会 得 出 可 读 性 更 强 的 算法 描述 ， 而 且 十 分 有 效 。 

然而 ,递归 的 可 用 性 要 基于 合适 的 成 本 。 特 别 是 ，Python 解释 器 必须 保持 跟踪 每 个 铝 
套 调 用 的 状态 的 活动 记录 。 当 计算 机 内 存 价格 昂贵 时 ， 在 某 些 情况 下 ， 能 够 从 那些 递归 算法 
得 到 非 递 归 算 法 是 很 有 用 的 。 

在 一 般 情况 下 ， 我 们 可 以 使 用 堆栈 数据 结构 ， 堆 栈 结 构 将 在 6.1 节 介绍 ， 通 过 管理 递归 
结构 自身 的 扔 套 ， 而 不 是 依赖 于 解释 器 ， 从 而 把 递归 算法 转换 成 非 递归 算法 。 虽 然 这 只 是 
把 内 存 使 用 从 解释 器 变换 到 堆栈 ， 但 是 也 许 能 够 通过 只 存储 最 小 限度 的 必要 信息 来 减少 内 存 
使 用 。 

更 好 的 情况 是 ， 弟 归 的 某 些 形式 可 以 在 不 使 用 任何 辅助 存储 空间 的 情况 下 被 消除 。 其 中 
一 种 著名 的 形式 被 称 为 尾 递归 (tail recursion)。 如 果 执 行 的 任何 递归 调用 是 在 这 种 情况 下 的 
最 后 操作 ， 而 且 通 过 封闭 递归 ， 递 归 调 用 的 返回 值 (如 果 有 的 话 ) 立即 返回 ， 那 么 这 个 递归 
是 一 个 尾 递 与 。 根 据 需 要 ， 一 个 尾 递归 必须 是 线性 递归 (因为 如 果 必 须 立 即 返回 第 一 个 递归 
调用 的 结果 ， 那 么 将 无 法 进行 第 二 次 递归 调用 )。 

在 本 章 给 出 的 递归 函数 中 ， 代 码 段 4-3 的 binary. search 函数 和 代码 段 4-10 的 reverse FR 
数 均 是 尾 递归 的 例子 。 虽 然 其 他 几 个 线性 递归 很 像 尾 递归 ， 但 技术 上 并 不 是 如 此 。 例 如 ， 代 
码 段 4-1 中 的 阶乘 函数 不 是 一 个 尾 递归 。 它 最 后 的 命令 : 


return n * factorial(n—1) 


这 不 是 一 个 尾 递 归 ， 因 为 递归 调用 完成 之 后 进行 了 额外 的 乘法 运算 。 出 于 类 似 的 原因 ， 代 码 
段 4-9 的 linear sum 函数 和 代码 段 4-7 的 good. fibonacci 函数 也 不 是 尾 递归 。 
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在 重复 循环 中 ， 通 过 封闭 函数 体 ， 并 且 通 过 重新 分 配 现存 参数 的 这 些 值 以 及 用 新 的 参数 
来 代替 一 个 递归 调用 ， 任 何 尾 递归 都 可 以 被 非 递归 地 重新 实现 。 举 一 个 实例 ， 如 代码 段 4-15 
所 示 ，binary_search 函数 可 以 被 重新 实现 ， 仅 需要 在 while 循环 之 前 ， 初 始 化 变量 low 和 
high 来 表示 序列 的 完整 的 程度 。 然 后 ， 经 过 每 次 的 循环 找到 目标 值 或 者 缩小 候选 子 序 列 的 
范围 。 


代码 段 4-15 ”二 分 查找 算法 的 非 递归 实现 


1 def binary search iterative(data, target): 
2  """Return True if target is found in the given Python list." "" 
3 low=0 

4 high = len(data)—1 

5 while low <= high: 

6 mid = (low + high) // 2 


7 if target == data[mid]: # found a match 

8 return True 

9 elif target < data[mid]: 

10 high = mid — 1 # only consider values left of mid 
11 else: 

12 low — mid 4- 1 # only consider values right of mid 
13 return False # loop ended without success 


在 最 初版 本 中 进行 递归 调用 binary. search(data, target, low, mid — 1) 函数 的 地 方 ， 仅 用 
high = mid — 1 进行 蔡 换 ， 然 后 继续 下 一 个 循环 的 欠 代 。 最 初 的 基本 情况 的 条 件 low > high 
只 被 相反 的 循环 条 件 while low <= high 所 取代 。 在 新 的 实现 中 ， 如 果 while 循环 结束 ， 则 用 
返回 False 来 特 指 查找 失败 〈 也 就 是 说 ， 没 有 从 内 部 返回 True). 

我 们 同样 可 以 实现 代码 段 4-10 原始 递归 逆 置 (reverse) 方法 的 非 递归 实现 ， 如 代码 段 4-16 
所 示 。 


代码 段 4-16 ”使 用 迭代 逆 置 一 个 序列 的 元 素 


1 def reverse_iterative(S): 

2  """Reverse elements in sequence S.""" 
3 start, stop = 0, len(S) 

4 . while start < stop — 1: 

5 S[start], S[stop—1] = S[stop— 1], S[start] # swap first and last 
[i # 


5 start, stop = start + 1, stop — 1 narrow the range 


在 新 版 本 中 ， 在 每 个 循环 期 间 ， 更 新 start 和 stop 的 值 。 一 旦 在 这 个 范围 内 只 有 一 个 或 
者 更 少 的 元 素 ， 即 退出 。 

即使 许多 其 他 线性 递归 不 是 正式 的 尾 递归 ， 它 们 也 可 以 非常 有 效 地 用 和 迭代 来 表达 。 例 
如 ， 对 于 计算 阶乘 、 求 序列 元 素 的 和 或 者 有 效 地 计算 斐 波 纳 契 数 ， 都 有 简单 的 非 递归 实现 。 
事实 上 ， 从 1.8 节 可 以 看 出 ， 斐 波 那 契 数 生成 器 的 实现 使 用 0(1) 的 时 间 产 生 每 个 子 序列 的 
值 ， 因 此 需要 O(n) 的 时 间 来 产生 该 系列 中 的 第 n 个 条 目 。 


4.7 练习 
请 访问 www.wiley.com/college/goodrich 以 获得 练习 帮助 。 
巩固 


R-4.1 对 于 一 个 含有 n 个 元 素 的 序列 $， 描 述 一 个 递归 算法 查找 其 最 大 值 。 所 给 出 的 递归 算法 时 间 复 
杂 度 和 空间 复杂 度 各 是 多 少 ? 


R-4.2 
R-4.3 
R-4.4 
R-4.5 


R-4.6 


R-4.7 
R-4.8 


创新 
C-4.9 


C-4.10 
C-4.11 
C-4.12 


C-4.13 


C-4.14 


C-4.15 
C-4.16 


C-4.17 


C-4.18 
C-4.19 


使 用 在 代码 段 4-11 中 实现 的 传统 函数 ,绘制 出 power(2, 5) 函数 计算 的 递归 跟踪 。 
如 代码 段 4-12 实现 的 函数 所 示 ， 使 用 重复 平方 算法 ,绘制 出 power(2, 18) 函数 计算 的 递归 跟踪 。 
绘制 函数 reverse(S, 0, 5) (代码 段 4-10 ) 执行 的 递归 追踪 ， 其 中 S = [4, 3, 6, 2, 6]. 
绘制 函数 PuzzleSolve(3, S, U) (代码 段 4-14 ) 执行 的 递归 追踪 ， 其 中 5 为 空 并 且 U = (a, b, c, d). 


描述 一 个 递归 函数 ， 用 于 计算 第 n 个 调和 数 (harmonic number), HH, = li, 


描述 一 个 递归 函数 ， 它 可 以 把 一 串 数字 转换 成 对 应 的 整数 。 例 如 ，13 531 对 应 的 整数 为 13 531, 
Isabel 用 一 种 有 趣 的 方法 来 计算 一 个 含有 nn 个 整数 的 序列 4 中 的 所 有 元 素 之 和 ,其 中 nn 是 2 的 
宕 。 她 创建 一 个 新 的 序列 B， 其 大 小 是 序列 4 的 一 半 并 且 设 置 B[i] = 4[2i] + 4[2i+ 1](i=0, 1,…， 
(n/2) - 1)。 如 果 B 的 大 小 为 1， 那么 输出 B[0] ; 否则 ,用 8 取代 4， 并 且 重 复 这 个 过 程 。 那 么 
她 的 这 个 算法 的 时 间 复 杂 度 是 多 少 ? 


写 一 个 简短 的 递归 Python 函数 ， 用 于 在 不 使 用 任何 循环 的 条 件 下 查找 一 个 序列 中 的 最 小 值 和 

最 大 值 。 
在 只 使 用 加 法 和 整数 除法 的 情况 下 ， 描 述 一 个 递归 算法 , 来 计算 以 2 为 底 的 n 的 对 数 的 整数 
部 分 。 
描述 一 个 有 效 的 递归 函数 来 求解 元 素 的 唯一 性 问题 ， 在 不 使 用 排序 的 最 坏 的 情况 下 运行 时 间 
最 多 是 O(n’). 
在 只 使 用 加 法 和 减法 的 情况 下 ,给 出 一 个 递归 算法 ,来 计算 两 个 正 整数 m All 的 乘积 。 
在 4.2 节 中 ， 我们 用 归纳 法 证 明 调 用 draw_interval(c) 函数 打印 的 行 数 是 2- 1。 另 一 个 有 趣 的 
问题 是 在 此 过 程 中 有 多 少 短线 被 打印 出 来 。 通 过 归纳 法 证 明 调 用 draw_interval(c) 函数 打印 的 
短线 的 数量 为 2 *' 一 c 一 2。 
在 汉 诺 塔 问题 中 ， 我 们 给 出 了 一 个 平台 ， 有 三 根 柱子 a, 
和 <c 从 这 个 平台 上 伸 出 。 在 柱子 a EUG nt T. 
每 个 都 比 后 放 上 来 的 盘子 大 ， 因 此 ， 最 小 的 盘子 在 顶部 
并 且 最 大 的 盘子 在 底部 。 本 题 是 把 所 有 盘子 从 柱子 a 移 
动 到 柱子 2， 每 次 移动 一 个 盘子 ， 并 且 不 会 把 大 一 些 的 
盘子 放 在 小 一 些 的 盘子 的 上 面 。 人 参见 图 4-15 n= 4 的 
例子 。 描 述 一 个 递归 算法 ， 用 来 求解 任意 整数 壮 的 汉 诺 
塔 问题 。( 提 示 : 首先 考虑 这 个 问题 的 子 问题 ， 即 使 用 第 
三 个 柱子 把 除 第 个 盘子 之 外 的 所 有 盘子 从 柱子 a 移动 
到 另 一 个 柱子 作为 “临时 存储 ”。) 
编写 一 个 递归 函数 ， 该 函数 将 输出 一 个 含有 个 元 素 的 集合 的 所 有 子 集 (没有 任何 重复 的 子 集 )。 
编写 一 个 简短 的 递归 Python 函数 ， 它 接受 一 个 字符 串 s 并 且 输 出 其 逆 置 字符 串 。 例 如 字符 
HB 'pots&pans' 的 逆 置 字符 串 为 'Snap&stop'。 
编写 一 个 简短 的 递归 Python 函数 ， 确 定 一 个 字符 串 > 是否 是 它 的 一 个 回 文字 符 串 ， 也 就 是 
说 ， 该 字符 串 与 其 逆 置 字符 串 相 同 。 例 如 ， 字 符 串 racecar’ 和 'gohangasalamiimalasagnahog' 
是 回 文字 符 串 。 
使 用 递归 编写 一 个 Python 函数 ， 确 定 字符 串 s 中 是 否 元 音字 母 比 辅音 字母 多 。 
编写 一 个 简短 的 递归 Python 函数 ， 用 于 重新 排列 一 个 整数 值 序列 ， 使 得 所 有 偶数 值 出 现在 所 


图 4-15 汉 诺 塔 问 题 的 一 个 示意 图 
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有 奇数 值 的 前 面 。 

C-4.20 给 定 一 个 未 排序 的 整数 序列 S 和 整数 k， 描 述 一 个 递归 算法 ， 用 于 对 5 中 的 元 素 重新 排序 ， 使 
得 所 有 小 于 等 于 大 的 元 素 在 所 有 大 于 大 的 元 素 之 前 。 在 这 个 含有 个 值 的 序列 中 ， 算 法 的 时 
间 复 杂 度 是 多 少 ? 

C-4.21 假设 给 出 一 个 含有 n 个 元 素 的 序列 S$， 这 个 序列 是 包含 不 同 元 素 的 升序 序列 。 给 定 一 个 数 , 
描述 一 个 递归 算法 找到 5 中 总 和 为 大 的 两 个 整数 (如果 这 样 的 一 对 整数 存在 )。 算 法 的 时 间 复 
AE RAM 

C-4.22 ”从 代码 段 4-12 使 用 重复 平方 的 power 函数 的 版 本 中 ， 实 现 一 个 非 递归 实例 。 

项 目 

P-4.23 ”实现 一 个 具有 特征 值 find(path, filename) 的 递归 函数 ， 该 特征 值 报告 在 具有 指定 路 径 的 指定 文 
件 名 为 根 的 文件 系统 的 所 有 条 目 。 

P-4.24 ”编写 一 个 程序 ， 通 过 列举 和 测试 所 有 可 能 的 配置 来 解决 求 和 谜 题 。 使 用 该 程序 解决 4.4.3 节 给 
出 的 三 个 问题 。 

P-4.25 ”对 于 4.1.2 节 的 英 式 标 尺 工程 ， 用 draw. interval 函数 的 一 个 非 递 归 实 现 。 如 果 c 代表 中 心 刻度 
线 的 长 度 ， 那 么 应 该 精确 地 有 2° - 1 行 输出 。 如 果 从 0 至 增加 2° - 2 个 计数 器 ， 每 个 刻度 线 中 
短线 的 数量 应 该 恰好 比 在 计数 器 的 二 进 制 表示 的 结尾 连续 的 1 的 数量 多 1。 

P-4.26 ”编写 一 个 程序 ， 以 解决 汉 诺 塔 问题 的 实例 (参见 练习 C-4.14 )。 

P-4.27 Python 的 os 模块 提供 了 一 个 有 特征 值 walk(path) 的 函数 ， 该 特征 值 对 于 由 字符 串 路 径 标 识 目 
录 的 每 个 子 目录 来 说 是 三 元 组 ( dirpath, dirnames, filenames) 的 发 生 器 。 比 如 字符 串 dirpath 
是 子 目录 的 完整 路 径 ，dirnames 是 在 dirpath 内 子 目录 名 称 的 列表 ，filenames 是 dirpath 非 目 
录 条 目 名 称 的 列表 。 例 如 ， 当 查看 图 4-6 所 示 的 文件 系统 的 目录 cs016 的 子 目录 时 ，walk 会 
产生 ( "user/rt/courses/cs016', ['homeworks', 'programs'], ['grades'])。 给 出 这 样 一 个 walk 函数 
的 实现 。 

扩展 阅读 


在 程序 中 ,递归 的 使 用 属于 计算 机 科学 的 特色 (参见 Dijkstra 算法 的 文章 Ba)。 这 也 是 函数 编程 
语言 的 核心 (参见 H. Abelson, G. J. Sussman fil J. Sussman 的 经 典 著作 中) 。 有 趣 的 是 ， 二 分 查找 首次 
出 版 于 1946 年 ， 但 直到 1962 年 才 发 表 了 一 个 完全 正确 的 形式 。 有 关 本 章 内 容 的 进一步 讨论 ， 请 参阅 
Bentley "* 和 Lesuissele8 的 论文 。 
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Data Structures and Algorithms in Python 


基于 数组 的 序列 





5.1 Python 序列 类 型 


在 本 章 中 ， 我们 探讨 Python 的 各 种 “序列 ”类 ， 即 内 艇 的 列表 类 (list)、 元 组 类 (tuple) 
和 字符 串 类 (str)。 这 些 类 之 间 有 明显 的 共性 ， 最 主要 的 是 : 每 个 类 都 支持 用 下 标 访问 序 
列 元 素 ， 比 如 使 用 语法 seq[k] ; 每 个 类 都 使 用 数组 这 种 低层 次 概念 表示 序列 。 然 而 ， 在 
Python 中 ， 这 些 类 所 表示 的 抽象 以 及 实例 化 的 方式 有 着 明显 的 区 别 。 因 为 这 些 类 被 广泛 用 
T Python 程序 中 ， 又 因为 它们 能 够 成 为 构件 块 ， 用 这 些 构件 块 可 以 开发 更 复杂 的 数据 结构 , 
所 以 ， 我们 迫切 需要 搞 清楚 这 些 类 的 公共 行为 和 内 部 运作 机 制 。 

行为 

一 个 优秀 的 程序 员 有 必要 正确 理解 类 的 外 部 语义 。 列 表 、 字 符 串 和 元 组 的 使 用 看 似 简 
单 ， 然 而 在 理解 与 这 些 类 相关 的 行为 上 ， 却 有 一 些 重 要 的 细节 (比如 说 复制 序列 意味 着 什 
么 ,或 者 取 序 列 的 一 部 分 又 意味 着 什么 )。 对 类 的 行为 有 误解 很 容易 导致 程序 中 出 现 无 意识 
的 错误 。 因 此 ， 我 们 要 在 头脑 中 为 这 些 类 建立 准确 的 模型 。 这 些 模型 将 会 帮助 我 们 研究 更 高 
级 的 用 法 ， 比 如 使 用 多 维 数据 集合 表示 列表 的 列表 。 

实现 细节 

关注 这 些 类 的 内 部 实现 似乎 有 悖 于 面向 对 象 编程 的 原则 。 在 2.1.2 节 中 ， 我 们 强调 过 封 
装 的 原则 ， 指 出 在 使 用 类 时 不 需要 知道 其 内 部 实现 细节 。 虽 然 这 句 话 没 错 ， 即 程序 员 仅 需 要 
理解 类 的 公共 接口 的 语法 和 语义 就 能 够 用 类 的 实例 写 出 合法 且 准 确 的 代码 ， 但 程序 的 效率 很 
大 程度 上 依赖 于 其 所 使 用 组 件 的 效率 。 

渐 近 和 实验 分 析 

对 于 Python 序列 类 ， 我 们 依据 在 第 3 章 给 出 的 渐 近 分 析 符 号 来 描述 其 各 种 操作 的 效率 。 
我 们 也 将 对 主要 操作 执行 实验 分 析 ， 给 出 和 更 具 理论 化 的 渐 近 分 析 相 一 致 的 实验 性 结论 。 


5.2 低层 次 数组 

为 了 能 准确 描述 Python 所 表示 序列 类 型 的 方法 ， 我 们 必须 先 讨论 计算 机 体系 结构 的 低 
层次 内 容 。 计 算 机 主 存 由 位 信息 组 成 ， 这 些 位 通常 被 归 类 成 更 大 的 单元 ， 这 些 单元 则 取决 于 
精准 的 系统 架构 。 一 个 典型 的 单元 就 是 一 个 字 节 ， 相 当 于 8 位 。 

计算 机 系统 拥有 庞大 数量 的 存储 字 节 ， 为 了 能 跟踪 信息 存储 在 哪个 字 节 ， 计 算 机 采用 了 
一 个 抽象 概念 ， 即 我 们 熟悉 的 存储 地 址 。 实 际 上 ， 每 个 存储 字 节 都 和 一 个 作为 其 地 址 的 唯一 
数字 相关 联 (更 正式 地 说 ， 数 字 的 二 进 制 表示 作为 地 址 )。 例 如 ， 使 用 这 种 方式 ， 计 算 机 系 
统 能 够 将 “ 字 节 #150” 中 的 数据 和 “ 字 节 #157” 中 的 数据 进行 对 比 。 存 储 地 址 通常 和 存 
储 系统 的 物理 设计 相 协 调 ， 我们 因此 通常 以 顺序 的 方式 描述 这 些 数字 。 图 5-1 给 出 了 这 样 一 
个 图 表 ， 在 该 图 表 中 ， 每 个 字 节 均 被 指定 了 存储 地 址 。 











图 5-1 计算 机 内 存 的 部 分 示例 ， 其 中 每 个 字 节 都 被 指定 了 连续 的 存储 地 址 


尽管 编号 系统 具有 顺序 性 ， 但 计算 机 硬件 也 是 这 样 设计 的 ， 因 此 ， 从 理论 上 说 ， 基 于 这 
种 存储 地 址 ， 主 存 的 任何 字 节 都 能 被 有 效 地 访问 。 从 这 个 意义 上 说 ， 我 们 将 计算 机 主 存 称 为 
随机 存储 存储 器 (Random Access Memory，RAM)。 也 就 是 说 ， 检 索 字 节 #8675309 就 和 检 
索 字 节 #309 一 样 容 易 。( 在 实践 中 ， 有 很 多 复杂 的 因素 ， 包 括 对 缓存 和 外 部 存储 器 的 使 用 ， 
我 们 会 在 15 章 解 决 一 些 这 样 的 问题 ) 使 用 渐 近 分 析 的 符号 ， 我 们 认为 存储 器 的 任 一 单个 字 
节 被 存储 或 检索 的 运行 时 间 为 0(1)。 

一 般 来 说 ， 编 程 语言 记录 标识 符 和 其 关联 值 所 存储 的 地 址 之 间 的 联系 。 比 如 ， 标 识 符 x 
可 能 和 存储 器 中 的 某 一 值 关联 ， 而 标识 符 y 和 男 一 值 关联 。 和 常见 的 编程 任务 就 是 记录 一 系列 
相关 对 象 。 例 如 ， 我 们 可 能 希望 某 一 视频 游戏 能 够 记录 此 游戏 的 前 十 名 玩家 的 分 数 。 在 此 任 
务 中 ,我 们 不 会 用 10 个 变量 来 记录 ， 而 更 倾向 于 为 一 个 组 赋 以 组 名 ， 并 使 用 索引 值 指向 该 
组 内 的 高 分 。 

一 组 相关 变量 能 够 一 个 接 一 个 地 存储 在 计算 机 存储 器 的 一 块 连续 区 域内 。 我 们 将 这 样 的 
表示 法 称 为 数组 ( array)。 举 一 个 实际 的 例子 ， 一 个 文本 字符 串 是 以 一 列 有 序 字符 的 形式 存 
储 的 。 在 Python 中 ， 每 个 字符 都 用 Unicode 字符 集 表 示 ， 对 于 大 多 数 计算 机 系统 ，Python 
内 部 用 16 位 表示 每 个 Unicode 字符 ( 即 2 个 字 节 )。 因 此 ， 一 个 6 个 字符 的 字符 串 ， 比 
如 'SAMPLE'， 将 会 被 存储 在 存储 器 的 连续 12 个 字 节 中 ， 如 图 5-2 所 示 。 
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图 5-2 一 个 Python 字符 串 以 字符 数组 的 形式 存储 在 计算 机 存储 器 中 。 假 定 该 字符 串 的 每 个 
Unicode 字符 需要 两 个 字 节 的 存储 空间 。 条 目下 面 的 数字 即 是 该 字符 串 的 索引 值 


虽然 该 字符 串 需要 12 个 字 节 的 存储 空间 ， 但 我 们 仍 把 它 描述 为 6 字符 数组 。 我 们 会 将 
数组 中 的 每 个 位 置 称 为 单元 ， 并 用 整数 索引 值 描述 该 数组 ， 其 中 单元 的 开始 编号 为 0、1、 
2 等。 例如， 在 图 5-2 中 ， 索 引 为 4 的 数组 单元 的 内 容 为 L， 并 且 存 储 在 存储 器 的 2154 和 
2155 字 节 中 。 

数组 的 每 个 单元 必须 占据 相同 数量 的 字 节 。 之 所 以 这 样 要 求 ， 是 为 了 允许 使 用 索引 值 能 
够 在 常量 时 间 内 访问 数组 内 的 任 一 单元 。 尤 其 是 ， 假 如 知道 某 一 数组 的 起 始 地 址 (例如 ， 在 
图 5-2 中 ， 起 始 地 址 为 2146 )， 每 个 元 素 所 占 的 字 节 数 (例如 ， 每 个 Unicode 字符 占 2 个 字 
节 )， 和 所 要 求 的 字符 的 索引 值 ， 通 过 计算 start + cellsize*index 便 可 得 出 其 正确 的 内 存 地 址 。 
通过 这 个 公式 得 出 ， 单 元 0 正好 起 始 于 数组 的 起 始 地 址 ， 单 元 1 
正好 起 始 于 数组 起 始 地 址 后 的 一 个 cellsize 字 节 ， 等 等 。 例 如 ， L |E] 
图 5-2 中 的 单元 4 起 始 地 址 为 2146+2x4=2146+8=2154。 0 1 234 5 

当然 ， 在 数组 内 计算 内 存 地 址 的 算法 是 自动 处 理 的 。 因 此 ， 图 5-3 对 图 S-2 所 描述 的 字 
程序 员 可 以 把 字符 数组 理解 得 更 通俗 、 更 抽象 ， 如 图 5-3 所 示 。 符 串 的 进一步 抽象 
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5.2.1 引用 数组 


再 举 一 个 有 用 的 例子 : 假设 想 要 为 某 医院 开发 一 套 医疗 信息 系统 ， 来 记录 当前 分 配 到 病 
床 的 病人 的 名 字 。 假 定 医院 有 200 张 床 ， 为 方便 起 见 ， 这 些 床 编号 为 0 ~ 199。 我 们 可 以 考 
虑 使 用 基于 数组 的 数据 结构 来 记录 最 近 分 配 到 这 些 病床 上 的 病人 的 名 字 。 例 如 ， 在 Python 
中 ， 我 们 可 能 会 用 到 一 张 姓名 清单 ， 如 下 所 示 : 

['Rene', 'Joseph', 'Janet', 'Jonas', 'Helen', 'Virginia', "DNO 
在 Python 中 ， 为 了 用 数组 表示 这 样 的 列表 ， 必 须要 满足 数组 的 每 个 单元 字 节 数 都 相同 这 一 条 
件 。 然 而 ， 元 素 是 字符 串 ， 它 们 串 的 长 度 显然 不 同 。Python 可 以 用 最 长 字符 串 〈 不 仅 目前 存 
储 的 字符 串 ， 将 来 也 可 能 存储 任何 字符 串 ) 来 为 每 个 单元 预 留 足够 的 空间 ， 但 那样 太 浪费 了 。 

相反 ，Python 使 用 数组 内 部 存储 机 制 ( 即 对 象 引 用 ， 来 表示 一 列 或 者 元 组 实例 。 在 最 低 
层 ， 存 储 的 是 一 块 连续 的 内 存 地 址 序列 ， 这 些 地 址 指向 一 组 元 素 序列 。 图 5-4 所 示 即 为 该 列 
表 的 高 层 视 图 。 





- — 
图 5-4 存储 字符 串 引 用 的 数组 


虽然 单个 元 素 的 相对 大 小 可 能 不 同 ， 但 每 个 元 素 存储 地 址 的 位 数 是 固定 的 (比如 ， 每 个 
地 址 64 位 )。 在 这 种 方式 下 ，Python 可 以 通过 索引 值 以 常量 时 间 访 问 元 素 列表 或 元 组 。 

在 图 5-4 中 ,我 们 把 医院 病人 的 名 字 描 述 为 字符 串 列表 。 当 然 ， 更 有 可 能 的 是 ， 该 医疗 
言 息 系统 可 以 管理 每 个 病人 更 全 面 的 信息 ， 也 许可 以 表示 成 Patient 类 的 一 个 实例 。 从 列表 
实现 的 观点 看 ， 同 样 的 原则 也 适用 于 此 ， 即 列表 仅 保存 那些 对 象 引用 的 序列 。 同 时 需要 注 
意 ， 空 对 象 (None) 的 引用 能 作为 列表 的 元 素来 表示 医院 的 空 床 位 。 

列表 和 元 组 是 引用 结构 这 一 事实 对 这 些 类 的 语 
义 来 说 是 很 重要 的 。 一 个 列表 实例 可 能 会 以 多 个 指 
向 同一 个 对 象 的 引用 作为 列表 元 素 ， 一 个 对 象 也 可 
能 被 两 个 或 更 多 列表 中 的 元 素 所 指向 ， 因 为 列表 仅 
仅 存储 返回 对 象 的 引用 。 例 如 ， 在 计算 列表 的 一 小 BN 
段 时， 结果 产生 了 一 个 新 的 列表 实例 ， 该 新 列表 指 —— 
向 了 和 原 列 表 相 同 的 元 素 ， 如 图 5-5 所 示 。 

当 列表 的 元 素 是 不 变 的 对 象 时 ， 正 如 图 5.5 中 “图 5.5 7 temp 执行 的 结果 等 于 primes[3 : 6 
的 整数 实例 一 样 ， 则 两 张 表 共享 元 素 就 显得 没 那么 重要 了 ， 因 为 任何 一 张 表 都 不 能 改变 共享 
对 象 。 比 如 ， 若 在 此 结构 图 中 执行 语句 temp[2] = 15， 这 并 未 改变 已 存在 的 整数 对 象 ， 而 是 
将 temp 列表 单元 2 中 的 引用 指向 了 不 同 的 对 象 。 图 5-6 所 示 即 为 执行 后 的 结构 图 。 

当 通 过 复制 创建 一 个 新 的 列表 时 也 是 同样 的 情况 : 比如 backup = list(primes)， 就 会 对 原 
列表 复制 出 一 张 新 列 表 。 这 张 新 列 表 即 为 浅 拷 贝 ( 见 2.6 节 )， 该 列表 和 原 列表 指向 同样 的 元 
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素 。 当 这 些 元 素 不 可 变 时 ， 浅 拷贝 也 没关系 。 假 如 列表 的 元 素 是 可 变 的 ， 利 用 copy 模块 的 
deepcopy 函数 可 以 复制 列表 的 元 素 ， 得 到 一 个 具有 全 新 元 素 的 新 列表 ， 这 种 方式 称 为 深 找 贝 。 

再 给 出 一 个 更 有 用 的 例子 : 在 Python 中 ， 使 用 诸如 counters = [0]*8 这 样 的 语法 来 初始 
化 整数 数组 ， 这 是 很 常见 的 一 种 做 法 。 该 语法 构造 出 一 张 长 度 为 8、 各 元 素 为 0 的 列表 。 从 
BOR EU, 列表 的 8 个 单元 都 指 癌 同一 个 对 象 ， 如 图 5-7 所 示 。 


counters: 





图 5-6 对 图 5-5 中 给 出 的 结构 图 执行 语 图 5-7 执行 data = [0]*8 后 的 结果 
句 temp[2] = 15 后 的 结果 


乍 一 看 ， 在 此 结构 图 中 ， 这 种 极端 的 重合 现 象 着 实 令 人 担忧 。 然 而 ,我们 可 以 依据 指 
向 的 整数 是 不 可 变 的 这 一 事实 。 即 使 执行 诸如 counters[2] += 1 这 样 的 语法 ,技术 上 也 不 能 
改变 现 有 的 整数 。 只 是 计算 出 一 个 新 的 整数 ， 值 为 0 + 1， 并 使 单元 2 指向 了 这 个 新 的 值 。 
图 5-8 所 示 即 为 执行 后 的 结构 图 。 

下 面 对 列 表 引 用 性 质 给 出 最 后 一 个 演示 ， 我 们 注意 到 使 用 extend 命令 能 将 一 个 列表 的 
所 有 元 素 添加 到 另 一 张 列 表 的 末尾 。 扩 展 列表 的 过 程 不 是 将 那些 元 素 复制 过 来 ， 而 是 将 元 素 
的 引用 复制 到 末尾 。 图 5-9 所 示 即 为 调用 extend 函数 的 结果 。 





A 1-2 3'4 $ B ? & 9 NH 


图 5-8 通过 对 图 5-7 中 的 列表 执行 cou- 图 5-9 执行 primes.extend(extras) 后 的 结果 ， 
nters[2] + = 1 后 的 结果 如 浅 灰 色 部 分 所 示 


5.2.2 Python 中 的 紧凑 数组 


在 本 节 的 介绍 中 ,我们 强调 字符 串 是 用 字符 数组 表示 的 (而 不 是 用 数组 的 引用 )。 我 们 将 
会 谈 到 更 直接 的 表示 方式 一 一 紧凑 数组 (compact array)， 因 为 数组 存储 的 是 位 ， 这 些 位 表示 
原始 数据 (在 字符 串 情况 下 ， 这 些 位 即 是 字符 )。 





在 计算 性 能 方面 ， 紧 凑 数 组 比 引用 结构 多 几 大 优势 。 最 重要 的 是 ,使 用 紧 竣 结构 会 占 
用 更 少 的 内 存 ， 因 为 在 内 存 引 用 序列 的 显示 存储 上 没有 开销 (原始 数据 除外 )， 即 引用 结构 
通常 会 将 64 位 地 址 存 人 数组 ， 无 论 存储 单个 元 素 的 对 象 有 多 少 位 。 另 外 ， 字 符 串 中 的 每 个 
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Unicode 字 节 存储 在 紧凑 数组 中 仅 需 要 两 个 字 节 。 如 果 每 个 字符 都 以 单字 符 字 符 串 独立 存 
储 ， 那 显然 将 会 占用 更 多 字 节 。 

接 下 来 研究 另 一 个 案例 ， 假 设想 要 存储 100 万 个 64 位 整数 。 理 论 上 ， 我 们 或 许 希 望 仅 
仅 占 用 64 000 000 位 ， 然 而 通过 估计 得 出 Python 列表 将 会 占用 的 容量 是 该 容量 的 4 一 5 倍 。 
每 个 列表 元 素 都 将 产生 一 个 64 位 存储 地 址 ， 并 将 此 地 址 存储 于 原始 数组 中 ， 整 数 实例 会 被 
存储 于 内 存 的 其 他 地 方 。Python 人 允许 查询 每 个 对 象 在 主 存 中 实际 占用 多 少 位 字 节 一 一 使 用 系 
统 模块 中 的 getsizeof 函数 即 可 得 出 。 在 我 们 的 系统 中 ， 一 个 标准 整 型 对 象 需要 占用 14 字 节 
Ate (超出 4 字 节 的 部 分 用 于 表示 实际 64 位 地 址 ) 。 总 之 ， 列 表 每 个 条 目 要 占用 18 个 字 节 ， 
而 不 是 像 整数 紧凑 列表 那样 仅 需 要 4 PE. 

紧凑 结构 在 高 性 能 计算 方面 的 另 一 个 重要 优势 是 : 原始 数据 在 内 存 中 是 连续 存放 的 。 注 
意 ， 引 用 结构 没有 这 种 情况 。 也 就 是 说 ， 即 使 列表 对 存储 地 址 做 了 谨慎 的 规定 ， 但 是 这 些 元 
素 会 被 存 人 内 存 的 什么 位 置 并 不 受 该 列表 所 决定 。 由 于 缓存 的 工作 性 质 和 计算 机 的 存储 层次 
结构 ， 将 数据 存 到 其 他 可 能 用 于 相同 计算 的 数据 旁边 通常 是 有 利 的 。 

尽管 引用 结构 明显 效率 低下 ,但 在 本 书 中 ， 我们 更 看 重 Python 列表 和 元 组 所 提供 的 便 
利 。 我 们 将 会 在 第 15 章 讨论 紧凑 结构 ， 届 时 将 集中 讨论 内 存 使 用 对 数据 结构 和 算法 的 影响 。 
Python 提供 了 几 种 用 于 创建 不 同类 型 的 紧凑 数组 的 方法 。 

紧凑 数组 主要 通过 一 个 名 为 array 的 模块 提供 支撑 。 该 模块 定义 了 一 个 类 (也 命名 为 
array)， 该 类 提供 了 紧凑 存储 原始 数据 类 型 的 数组 的 
方法 。 图 5-10 所 示 即 为 这 样 一 个 整 型 数组 的 描述 。 

array 类 的 公共 接口 通常 和 了 Python 的 list ( 列 me 
40 一 致 。 然 而 ， 该 类 的 构造 函数 需要 以 类 型 代码 ”图 SI0 整数 作为 Python Beet eR Et 
(type code) 作为 第 一 个 参数 ， 也 即 一 个 字符 ， 该 S 
字符 表明 要 存 人 数组 的 数据 类 型 。 举 一 个 实际 的 例子 ， 类 型 代码 衬 表 明 这 是 一 个 (有 符号 
的 ) 整 型 数组 ,通常 表示 每 个 元 素 至 少 16 位 。 我 们 可 以 把 图 5-10 所 示 的 数组 声明 如 下 : 


primes = array('i', [2, 3, 5, 7, 11, 13, 17, 19]) 


类 型 代码 允许 解释 器 确定 数组 的 每 个 元 素 需 要 多 少 位 。 正 如 表 5-1 所 示 ，array 模块 支持 
类 型 代码 ， 这 些 类 型 代码 主要 是 基于 C 编程 语言 (Python 使 用 最 广泛 的 发 布 版 就 是 用 C 语言 
实现 ) 的 本 地 数据 类 型 。C 语言 数据 的 精确 位 数 是 跟 系 统 有 关 的 ， 但 可 以 给 出 通常 的 范围 。 
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数据 类 型 字 节 的 精确 位 数 
signed char 1 
unsigned char 1 
Unicode char 2 or4 
signed short int 2 
unsigned short int 2 
signed int 2or4 
unsigned int 2 or4 
signed long int 4 
unsigned long int 4 
Float 4 
float 8 
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array 模块 不 支持 存储 用 户 自 定义 数据 类 型 的 紧凑 数组 。 这 种 结构 的 紧凑 数组 可 以 用 一 
个 名 为 ctypes 的 底层 模块 来 创建 (5.3.1 节 将 会 对 ctypes 模块 做 更 多 讨论 )。 


5.3 动态 数组 和 摊 销 

在 计算 机 系统 中 ， 创 建 低 层次 数组 时 ， 必 须 明 确 声 明 数 组 的 大 小 ， 以 便 系统 为 其 
存储 分 配 连 续 的 内 存 。 例 如 ， 图 5-11 给 出 了 一 个 12 字 节 的 数组 ， 该 数组 被 分 配 在 地 址 
2146 — 2157 的 位 置 。 
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Al 5-11 — 12 字 节 数组 被 分 配 在 — 2146 — 2157 的 位 置 


由 于 系统 可 能 会 占用 相 邻 的 内 存 位 置 去 存储 其 他 数据 ， 因 此 数组 大 小 不 能 靠 扩 展 内 存单 
元 来 无 限 增加 。 在 表示 Python 元 组 (tuple) 或 者 字符 串 ( str) 实例 的 情形 中 ， 这 种 限制 就 没 
什么 问题 了 。 由 于 这 些 类 的 实例 变量 都 是 不 可 变 的 ， 因 此 当 对 象 实例 化 时 ， 低 层 数 组 的 大 小 
就 已 确定 了 。 

Python 列表 (list) 类 提供 了 更 有 趣 的 抽象 。 虽 然 列 表 在 被 构造 时 已 经 有 了 确定 的 长 
度 ， 但 该 类 允许 对 列表 增添 元 素 ， 对 列表 的 总 体 大 小 没有 明显 的 限制 。 为 了 提供 这 种 抽象 ， 
Python 依赖 于 一 种 算法 技巧 ， 即 我 们 所 熟知 的 动态 数组 (dynamic array) 。 

为 了 理解 动态 数组 的 语义 ， 首 先 关键 的 一 点 是 : 一 张 列 表 通 常 关联 着 一 个 底层 数组 ， 该 
数组 通常 比 列表 的 长 度 更 长 。 例 如 ， 用 户 创建 了 一 张 具 有 5 个 元 素 的 列表 ， 系 统 可 能 会 预 贸 
一 个 能 存储 8 个 对 象 引 用 的 底层 数组 (而 不 止 S 个 )。 通 过 利用 数组 的 下 一 个 可 用 单元 ， 剩 
余 的 长 度 使 得 增添 列表 元 素 变 得 很 容易 。 

假如 用 户 持 续 增 添 列 表 元 素 ， 所 有 预 留 单 元 最 终 将 被 耗 尽 。 此 时 ， 列 表 类 向 系统 请 求 一 
个 新 的 、 更 大 的 数组 ， 并 初始 化 该 数组 ， 使 其 前 面部 分 能 与 原来 的 小 数组 一 样 。 届 时 ， 原 来 
的 数组 不 再 需要 ， 因 此 被 系统 回收 。 这 种 策略 直观 上 就 像 寄居 蟹 ， 当 旧 的 贝壳 不 足以 容纳 它 
时 ， 它 便 会 钻 到 更 大 的 贝壳 里 。 

经 验证 明 ，Python 的 list 类 确实 基于 这 种 策略 。 我 们 在 代码 段 5-1 中 给 出 源 代码 ， 在 代 
码 段 5-2 中 给 出 程序 样 例 输出 ， 并 使 用 了 sys 模块 提供 的 getsizeof 函数 。 该 函数 用 于 给 出 在 
Python 中 存储 对 象 的 字 节 数 。 对 于 列表 ， 该 函数 仅 给 出 此 列表 关联 的 数组 和 其 他 实例 变量 
的 字 节 数 之 和 ， 而 不 包括 任何 分 配给 被 该 列表 引用 的 元 素 的 内 存 。 


代码 段 5-1 在 Python 中 ,探究 列表 长 度 和 底层 大 小 关系 的 实验 


| import sys ## provides getsizeof function 
2 data=[] 

3 fork in range(n): # NOTE: must fix choice of n 
4 a= len(data) # number of elements 

5 b= sys.getsizeof(data) # actual size in bytes 

6 print('Length: {0:3d}; Size in bytes: {1:4d}'.format(a, b)) 

7 data.append(None) # increase length by one 


代码 段 5-2 ”代码 段 5-1 实验 的 样 例 输出 
Length: 0; Size in bytes: 72 
Length: 1; Size in bytes: 104 
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Length: 2; Size in bytes: 104 
Length: 3; Size in bytes: 104 
Length: 4; Size in bytes: 104 
Length: 5; Size in bytes: 136 
Length: 6; Size in bytes: 136 
Length: 7; Size in bytes: 136 
Length: 8; Size in bytes: 136 
Length: 9; Size in bytes: 200 
Length: 10; Size in bytes: 200 
Length: 11; Size in bytes: 200 
Length: 12; Size in bytes: 200 
Length: 13; Size in bytes: 200 
Length: 14; Size in bytes: 200 
Length: 15; Size in bytes: 200 
Length: 16; Size in bytes: 200 
Length: 17; Size in bytes: 272 
Length: 18; Size in bytes: 272 
Length: 19; Size in bytes: 272 
Length: 20; Size in bytes: 272 
Length: 21; Size in bytes: 272 
Length: 22; Size in bytes: 272 
Length: 23; Size in bytes: 272 
Length: 24; Size in bytes: 272 
Length: 25; Size in bytes: 272 
Length: 26; Size in bytes: 352 


在 评估 实验 结果 时 ， 首 先 注意 代码 段 5-2 的 第 一 行 输出 。 可 以 注意 到 ， 空 列表 已 经 请 求 
了 一 定数 量 字 节 的 内 存在 我 们 的 系统 中 是 72/7). EXE, Python 中 每 个 对 象 都 保存 了 一 
些 状态 ， 例 如 ， 标 志 着 该 对 象 属 于 哪个 类 的 引用 。 尽 管 不 能 直接 访问 列表 的 私有 实例 变量 ， 
但 可 以 推测 该 列表 以 某 种 形式 保存 的 一 些 状 态 信息 ， 类 似 于 : 





n 列表 当前 存储 的 实际 元 素 的 个 数 
capacity 当前 所 分 配 数组 中 允许 存储 的 元 素 最 大 个 数 
A 当前 所 分 配 数 组 的 引用 (最初 为 None ) 


当 第 1 个 元 素 添 人 列表 时 ， 我 们 就 会 检查 底层 结构 的 大 小 是 否 改变 。 特 别 需要 注意 的 
是 ， 字 节 数 从 72 跳 到 104， 增 加 了 32 个 字 节 。 本 实验 是 在 64 位 机 器 上 运行 的 ， 这 表明 每 
个 内 存 地址 是 64 位 ( 即 8 个 字 节 )。 我 们 推测 增加 的 32 个 字 节 即 为 分 配 的 用 于 存储 4 个 对 
象 引 用 的 底层 数组 大 小 。 这 一 推测 符合 这 样 的 事实 : 当 对 列表 增添 第 2 个、 第 3 个 或 者 第 4 
个 元 素 时 ， 我们 没有 发 现在 内 存 占用 上 有 任何 改变 。 

当 增添 第 5 个 元 素 时 ， 我 们 注意 到 内 存 占用 的 字 节 数 从 104 跳 到 136。 假 定 列表 最 初 占 
72 个 字 节 ， 最 后 变 为 总 共 136 字 节 ， 增 加 64 = 8 x 8 个 字 节 ， 这 表明 我 们 提供 了 8 个 对 象 引 
用 的 扩展 空间 。 另 外 ， 当 增添 第 9 个 元 素 前 ， 内 存 占 用 都 不 再 增加 ， 这 也 跟 实 验 结果 相 一 
致 。 从 这 个 角度 来 讲 ，200 个 字 节 可 被 视 为 最 初 的 72 个 字 节 再 加 上 用 于 存储 16 个 对 象 引 用 
的 128 个 字 节 。 当 增添 第 17 个 元 素 后 ， 整 个 存储 占用 将 变 为 272 = 72 + 200 = 72+ 25x8, 
因此 ， 足 够 存储 25 个 对 象 引用 。 

因为 列表 是 引用 结构 ， 对 列表 实例 使 用 函数 getsizeof 得 出 的 结果 仅 包 括 该 列表 主要 结 
构 的 大 小 ， 不 算 由 对 象 ( 即 列表 元 素 ) 所 占用 的 内 存 。 在 实验 中 ， 我 们 不 断 给 列表 增添 None 
对 象 ， 并 不 关心 单元 将 会 放 什 么 内 容 ， 但 是 我 们 可 以 向 列表 中 增添 任何 类 型 对 象 ， 结 果 不 受 
元 素 大 小 ( 即 getsizeof(data)) 所 给 出 的 字 节 数 的 影响 

假如 想 继续 该 实验 并 做 进一步 迭代 ， 我 们 或 许 想 搞 清 楚 : 每 次 当前 一 个 数组 使 用 完 后 ， 
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Python 会 创建 一 个 多 大 的 数组 ( 见 练习 R-5.2 和 C-5.13 )。 在 探究 使 用 Python 创建 的 精确 字 
节 数 之 前 ， 我 们 先 继续 本 节 学 习 ， 接 下 来 给 出 用 于 实现 动态 数组 和 执行 该 数组 性 能 渐 近 分 析 
的 一 般 方 法 。 


5.3.1 实现 动态 数组 


尽管 Python 的 list 类 给 出 了 动态 数组 的 一 种 高 度 优化 的 实现 (我们 在 本 书 的 后 续 部 分 要 
依赖 该 实现 方法 )， 但 学 习 该 类 是 如 何 被 实现 的 仍 对 我 们 有 指导 性 意义 。 

关键 在 于 提供 能 够 扩展 用 于 存储 列表 元 素 的 数组 4 的 方法 。 当 然 ， 实 际 上 我 们 不 能 扩 
展 数组 ， 因 为 它 的 大 小 是 固定 的 。 当 底层 数组 已 满 ， 而 有 元 素 要 添 人 列表 时 ， 我 们 会 执行 下 
面 的 步骤 : 

1) 分 配 一 个 更 大 的 数组 B 

2) i B[i] - Ali] (= 0,…,2 -1)， 其 中 冯 表 示 条 目的 当前 数量 。 

3) 设 4= 8， 也 就 是 说 ,我们 以 后 使 用 B 作为 数组 来 支持 列表 。 

4) 在 新 的 数组 里 增添 元 素 。 

图 5-12 中 给 出 了 上 述 步骤 的 示意 图 。 


4 REI 4 en CITIDD 
BO  »BBPBPITTIT]  4EPBEBITIT] 
a) 创建 新 的 数组 B b) 把 4 中 的 元 素 存 入 8 c ) 将 新 的 数组 组 名 重新 设 为 4 


图 5-12 “扩展 ”动态 数组 的 三 步 示意 图 (没有 给 出 旧 数 组 回收 和 新 数据 插入 的 示意 图 ) 





接 下 来 需要 思考 一 个 问题 : 新 数组 应 该 多 大 ? 通常 的 做 法 是 : 新 数组 大 小 是 已 满 的 旧 数 
组 大 小 的 2 倍 。 在 5.3.2 rh, 我们 会 对 这 种 做 法 进行 数学 分 析 。 

在 代码 段 5-3 中， 我 们 使 用 Python 给 出 了 动态 数组 的 一 种 具体 实现 。DynamicArray 类 
的 设计 便 是 运用 了 本 节 所 讨论 的 思想 。 虽 然 和 了 Python 中 1list 类 的 接口 一 致 ， 但 这 里 仅 提 供 
部 分 功能 : append 方法 以 及 访问 器 ”len 和 getitem — 。 底 层 数组 的 创建 由 ctypes 模块 
提供 。 因 为 在 本 书 的 剩余 部 分 不 会 一 直 使 用 这 种 底层 结构 ， 所 以 我 们 不 再 对 ctypes 模块 进行 
详细 说 明 。 我 们 在 私有 实例 方法 make array 中 封装 了 必要 的 指令 ， 该 指令 用 于 声明 原始 数 


组 。 扩 展 的 主要 过 程 在 非 公开 的 resize 方法 中 实现 。 
代码 段 5-3 ”使 用 ctypes 模块 提供 的 原始 数组 实现 DynamicArray 类 


| import ctypes # provides low-level arrays 
2 

3 class DynamicArray: 

4 '"" A dynamic array class akin to a simplified Python list." "" 

5 

6 def init. (self): 

7 '""" Create an empty array." " " 

8 self. n — 0 # count actual elements 
9 self. capacity — 1 # default array capacity 
10 self. A = self. make. array(self. capacity) # low-level array 


12 def __len__(self): 
13 """ Return number of elements stored in the array." " " 
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14 return self. n 


16 def __getitem .. (self, k): 


17 """ Return element at index k.""" 

18 if not 0 <= k < self... n: 

19 raise IndexError(' invalid index') 

20 return self. A[k] # retrieve from array 


22 def append(self, obj): 


23 """ Add object to end of the array." " " 

24 if self. n —— self. capacity: # not enough room 

25 self. resize(2 * self. capacity) # so double capacity 

26 self. A[self. .n] = obj 

27 self. n += 1 

28 

29 def _resize(self, c): # nonpublic utitity 

30 """ Resize internal array to capacity c.”"" 

31 B — self. make array(c) # new (bigger) array 

32 for k in range(self._n): # for each existing value 
33 B[k] = self. A[k] 

34 self. A — B # use the bigger array 
35 self. capacity = c 

36 

37 def _make_array(self, c): # nonpublic utitity 

38 """ Return new array with capacity c.""" 

39 return (c * ctypes.py-object)( ) # see ctypes documentation 


5.3.2 ”动态 数组 的 摊 销 分 析 


本 节 中 ， 我 们 对 动态 数组 相关 操作 的 运行 时 间 做 具体 分 析 。 我 们 用 3.3.1 节 介 绍 的 大 Q 
符号 ， 对 这 些 操作 的 算法 或 步骤 的 运行 时 间 给 出 渐 近 下 界 。 

使 用 新 的 、 更 大 的 数组 替换 旧 数 组 的 策略 起 初 
似乎 很 慢 ， 因 为 单个 增添 操作 可 能 就 需要 Q(n) 的 运 
行 时 间 ， 这 里 的 n 是 指数 组 元 素 的 当前 数量 。 然 而 
我 们 注意 到 ， 在 数组 的 蔡 换 过 程 中 ， 由 于 增 大 了 1 
倍 的 容量 ， 新 数组 在 被 替换 之 前 允许 增添 n 个 新 元 
素 。 这 种 方式 使 得 每 一 次 大 的 代价 的 替换 过 程 后 ， 
对 每 个 元 素 进行 添加 操作 ( 见 图 5-13 )。 这 一 事实 让 
我 们 意识 到 : 从 总 的 运行 时 间 来 看 ， 对 初始 为 空 的 
动态 数组 执行 一 系列 的 操作 ， 其 效率 也 是 很 高 的 。 

我 们 使 用 一 种 称 为 推销 (amortization) 的 算 
法 设计 模式 进行 证 明 : 事实 上 ， 在 动态 数组 中 执行 Bebe Swen S 
一 系列 增添 操作 效率 是 非常 高 的 。 为 了 做 排 销 分 析 01 21 0 1 BT OE eB iaIsI6 
(amortized analysis)， 我 们 使 用 一 种 会 计 学 技巧 : 把 
计算 机 视 为 一 个 投 币 装置 ， 对 每 个 固定 的 运行 时 间 
均 支 付 一 枚 网 络 硬币 ( cyber-dollar)。 当 执行 一 个 操 
作 时 ， 当 前 “银行 账户 ”中 要 有 足够 的 网 络 人 硬币 来 支付 此 次 操作 的 运行 时 间 。 因 此 ， 在 任意 
计算 中 所 花费 的 网 络 硬 币 总 数 将 会 和 该 计算 的 运行 时 间 成 正比 。 使 用 该 分 析 方 法 的 妙 处 在 于 
我 们 可 以 增加 某 些 操作 的 投入 ， 以 减低 其 他 操作 所 需 的 网 络 硬币 。 


增添 运算 的 基本 操作 个 数 





图 5-13 对 动态 数组 执行 一 系列 append 
操作 的 运行 时 间 
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命题 5-1: 设 8$ 是 一 个 由 具有 初始 大 小 的 动态 数组 实现 的 数组 ， 实 现 策 略为 : 当 数 组 已 满 时 ， 
将 此 数组 大 小 扩大 为 原来 的 2 倍 。S 最 初 为 室 ， 对 5S 连续 执行 n 个 增添 操作 的 运行 时 间 为 O(n)。 

证 明 : 假定 不 需要 扩大 数组 的 情况 下 ， 向 5 中 增加 一 个 元 素 所 需 时 间 需 支付 一 个 网 络 硬 
币 。 另 外 ， 假 定数 组 大 小 从 增长 到 2k 时 ,初始 化 该 新 数组 需要 上 个 网 络 硬币 。 我 们 将 会 
对 每 个 增添 操作 索 价 3 个 网 络 硬币 。 因 此 ， 





对 不 需要 扩大 数组 的 增添 操作 我 们 多 付 了 2 和 
个 网 络 硬币 。 在 不 需要 扩大 数组 的 增添 操作 ee i 
中 ,我 们 多 收 的 2 个 硬币 将 被 视 为 “ 存 人 DM EE 3 
该 元 素 所 插入 的 单元 中 。 当 数组 8 大 小 为 2 jee, JUS 
FFAS PA 2 ^26 EN, XT imo, n 都 “ 存 有 ”两 个 网 络 硬币 


元 素 将 会 出 现 溢出 。 此 时 ， 将 数组 大 小 扩大 
1 倍 需要 2 个 网 络 硬币 。 幸 运 的 是 ， 这 些 硬 
币 能 够 在 内 存单 元 从 2 到 2- 1 中 找到 
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( 见 图 5-14 )。 注 意 到 前 一 次 溢出 出 现在 当 元 。 ，) append 操 作 导 致 一 次 溢出 且 使 数组 大 小 扩大 1 倍 。 

素 个 数 第 一 次 比 2 一 大 时 ， 所 以 ， 在 单元 2 一 使 用 已 存 入 表 中 的 网 络 硬币 复制 8 个 旧 元 素 到 新 的 
LN x A SE 

到 2 1 中 存储 的 网 络 硬币 还 未 消费 。 因 此 ， REALE ERR. SR E 


x ' open 这 个 网 络 硬币 由 当前 增添 操作 所 收取 ， 另 两 个 多 收 
我 们 有 了 一 个 有 效 的 摊 销 方案 : 每 个 操作 索 的 网 络 硬币 存 入 单元 8 中 


fir 3 个 网 络 重 币 ， 所 有 运行 时 间 都 用 硬币 来 ”图 5-14 在 动态 数组 中 执行 一 系列 增添 操作 的 示 


支付 ， 即 我 们 可 以 用 3n 个 网 络 硬币 来 支付” am 

次 增添 操作 。 换 句 话说 ， 每 个 增添 操作 的 捧 

销 运行 时 间 为 0(1); 因此 ，n 次 增添 操作 的 总 体 运行 时 间 为 O(n) " 
大 小 按 几何 增长 


虽然 在 命题 5-1 的 证 明 中 ， 我 们 每 次 都 是 把 数组 扩大 1 倍 ， 但 是 对 “ LA omg 
何 增长 级 数 ( 见 2.4.2 节 对 几何 级 数 的 讨论 ) 扩大 ， 每 次 操作 的 摊 销 运行 时 间 仍 为 0(1)” 
一 结论 是 可 以 证 明 的 。 当 选 定 了 几何 基数 时 ， 在 运行 效率 和 内 存 使 用 之 间 便 存在 一 
题 。 例 如 ， 当 基数 为 2 时 ( 即 数组 扩大 两 倍 )， 假 如 最 后 一 个 插入 操作 使 得 数组 大 小 发 生 改 
变 ， 则 数组 的 大 小 本 质 上 会 变 为 其 需要 的 2 倍 来 结束 该 事件 。 如 果 不 希 望 最 后 浪费 太 多 内 
存 ， 可 以 让 数组 当前 大 小 仅 增 大 25% ( 即 几何 基数 为 1.25 )， 这 种 做 法 会 在 中 间 出 现 更 多 的 
调整 数组 大 小 的 事件 。 使 用 一 个 更 大 的 常数 ， 例 如 在 命题 5-1 的 证 明 中 使 用 的 常数 为 每 个 操 
作 需 要 3 个 网 络 硬币 ， 我 们 仍 可 能 证 明 摊 销 运 行 时 间 为 0(1) ( 见 练习 C-5.15 ) 。 证 明 的 关键 
是 : 增添 的 内 存 大 小 是 否 正比 于 当前 数组 大 小 。 

避免 使 用 等 差 数列 

为 了 避免 一 次 扩充 太 大 空间 ， 可 能 会 对 动态 数组 执行 这 样 的 策略 : 每 次 要 调整 数组 大 小 
时 ， 都 要 预 留 固 定数 量 的 额外 单元 。 不 幸 的 是 ， 这 种 策略 的 整体 性 能 明显 粳 糕 。 在 极端 情况 
下 ， 如 果 每 次 增加 一 个 单元 ， 则 会 导致 每 个 增添 操作 都 将 调整 数组 大 小 ， 继 而 就 是 类 似 地 求 
和 1+2+3+ 和 十 1， 所 以 总 体 运行 时 间 为 2(22)。 如 图 5-15 所 示 ， 如 果 每 次 增加 2 个 或 3 
个 单元 也 只 是 稍微 改善 ， 但 总 体 运 行 时 间 仍 为 双 。 

每 次 调整 大 小 时 都 采用 固定 的 增 量 ， 因 此 中 间 数 组 大 小 将 会 成 等 差 数 列 ， 正 如 命题 5- 
Ded ec Ri det ny Woot er ec let tg ig 
对 于 大 数据 集 来 说 ， 也 无 济 于 事 。 
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当前 元 素数 量 当前 元 素数 量 
a) 假定 数组 每 次 增 大 2 个 单元 b ) 假定 增加 3 个 单元 


图 5-15 ”对 动态 数组 采用 等 差 数 列 进行 一 系列 append 操作 所 需要 的 运行 时 间 


命题 5-2 : 对 初始 为 空 的 动态 数组 执行 连续 n 个 增添 操作 ， 若 每 次 调整 数组 大 小 时 采用 
固定 的 增 量 ， 则 运行 时 间 为 Q(O2 )。 

证 明 : 设 c > 0， 表 示 每 次 调整 数组 大 小 时 的 固定 增 量 。 在 连续 的 n 个 append 操作 中 ， 
时 间 将 会 花费 在 分 别 初始 化 大 小 为 c, 2c, 3c, … , me 的 数组 上 面 ， 其 中 m=『n/c]， 因此， 总 
体 运 行 时 间 将 会 正比 于 c+2c + 3c+…+ mc。 根 据 命题 3-3， 得 出 和 为 


ms ze) n 
È ci= c- ie E MES 
PM A IRA i 
从 命题 5-1 和 5-2 中 得 到 一 个 教训 : 算法 设计 中 ,一 个 细微 的 差异 在 渐 近 性 能 上 能 表现 
出 巨大 的 不 同 ， 细 致 的 分 析 在 设计 数据 结构 中 能 起 到 重要 的 作用 。 
内 存 使 用 和 紧凑 数组 
当 对 动态 数组 增添 数据 时 ， 这 种 按 几 何 增长 的 模式 所 带 来 的 男 一 结果 是 : 最 终 数组 大 小 
都 确保 能 正比 于 元 素 总 个 数 。 也 就 是 说 ， 数 据 结构 占用 O(n) 的 内 存 ， 这 是 数据 结构 一 个 非 
常理 想 的 属性 。 
假如 一 个 容器 ， 例 如 一 张 Python 列表 ， 能 够 提供 删除 一 个 或 多 个 元 素 的 操作 ， 那 就 更 
要 注意 确保 动态 数组 占用 O(n) 的 内 存 。 风 险 是 : 重复 的 插入 操作 可 能 会 导致 底层 数组 肆意 
增 大 ， 当 许多 元 素 被 删除 后 ， 元 素 的 实际 数量 与 数组 大 小 之 间 便 不 存在 正比 关系 。 
有 时 ,会 对 这 种 数据 结构 采用 一 种 健壮 的 实现 方式 一 一 紧凑 底层 数组 ， 在 此 期 间 ， 单 
个 操作 都 保持 OO) 的 摊 销 绑 定 。 然 而 ， 注 意 确 保 在 扩充 和 收缩 底层 数组 时 ， 结 构 不 能 捧 
销 (改变 )， 因 为 在 这 种 情况 下 ， 摊 销 绑 定 将 不 能 实现 。 在 练习 C-5.16 rn, 我们 探索 一 种 
策略 : 无 论 实际 元 素 个 数 比 数组 大 小 的 1/4 少 多 少 ， 我 们 都 对 半 平 分 数组 ， 这 样 能 确保 数 
组 大 小 至 少 是 元 素 个 数 的 4 倍 。 在 练习 C-5.17 和 C-S.18 中 ,我 们 将 探究 这 种 策略 的 挫 销 
分 析 。 


130 BSF 








5.3.3 Python 列表 类 


5.3 节 开 篇 处 的 代码 段 5-1 和 5-2 给 出 了 实验 性 证 据 : Python 列表 类 使 用 动态 数组 的 形 
式 来 存储 内 容 。 然 而 ， 对 中 间 数 组 大 小 的 细致 测试 ( 见 练习 R-5.2 和 C-5.13 ) 表明 Python 
既 不 是 使 用 纯粹 的 几何 级 数 ， 也 不 是 使 用 等 差 数 列 来 扩展 数组 。 

这 表明 ，append 方法 的 Python 实现 很 清晰 地 展现 了 摊 销 常量 时 间 的 行为 。 我 们 可 以 用 
实验 证 明 这 一 事实 。 虽 然 我 们 应 该 关注 一 些 更 花费 时 间 的 调整 数组 大 小 的 操作 ， 但 单个 增添 
操作 通常 都 执行 得 太 快 ， 以 至 于 我 们 很 难 精确 测量 该 过 程 的 时 间 。 通 过 对 初始 为 空 的 列表 执 
行 连续 n 个 增添 操作 ， 并 算出 每 个 操作 所 平均 花费 的 时 间 ， 我 们 就 能 对 摊 销 花费 在 每 个 操作 
上 的 时 间 做 更 精准 的 测量 。 代 码 段 5-4 给 出 了 一 个 函数 来 执行 这 个 实验 。 


代码 段 5-4 测量 Python 列表 类 增添 操作 的 摊 销 花费 


from time import time # import time function from time module 


l 

2 def compute. average(n): 

3  """Perform n appends to an empty list and return average time elapsed." "" 
4  data—-[] 

5 start = time( ) # record the start time (in seconds) 

6 for k in range(n): 

7 data.append(None) 

8 end = time( ) # record the end time (in seconds) 

9 return (end — start) / n # compute average per operation 


从 技术 上 说 ， 从 开始 到 结束 所 耗费 的 时 间 ， 除 了 调用 append 函数 的 时 间 ， 还 包括 维持 
循环 迭代 的 时 间 。 如 表 5-2 所 示 ， 随 着 n 值 的 增 大 ， 给 出 了 该 实验 的 实证 结果 。 我 们 看 到 较 
小 的 数据 集 往往 会 有 更 大 的 平均 花费 时 间 ， 也许 部 分 原因 在 于 循环 的 开销 。 在 使 用 这 种 方式 
测量 挫 销 花费 时 ， 也 会 产生 一 些 自 然 偏 差 ， 因 为 最 终 调整 大 小 都 跟 n 有 关 会 对 其 产生 影响 。 
从 整体 来 看 ， 每 个 append 操作 的 挫 销 时 间 都 独立 于 n， 这 点 似乎 很 明确 。 


表 5-2 通过 观察 开始 为 空 的 列表 连续 执行 n 次 调用 后 ， 得 出 增添 操作 以 微 秒 为 
单位 进行 测量 的 平均 运行 时 间 


5.4 Python 序列 类 型 的 效率 


在 上 一 节 中 ， 我 们 依据 执行 策略 和 效率 ， 初 步 学 习 了 Python FR (list) 类 的 基础 内 容 。 
在 本 节 中 ， 我 们 继续 检测 所 有 Python 序列 类 型 的 性 能 。 


5.4.1 Python 的 列表 和 元 组 类 


列表 类 的 nonmutating 行为 是 由 元 组 (tuple) 类 所 支持 的 。 我 们 注意 到 元 组 比 列表 的 内 
存 利用 率 更 高 ， 因 为 元 组 是 固定 不 变 的 ， 所 以 没 必 要 创建 拥有 剩余 空间 的 动态 数组 。 表 5-3 
给 出 了 列表 和 元 组 类 中 nonmutating 行为 的 渐 近 效率 。 下 面 对 其 中 的 内 容 进 行 解释 。 

常量 时 间 操 作 

实例 的 长 度 之 所 以 能 在 常量 时 间 内 得 到 ， 是 因为 该 实例 明确 包含 了 这 一 状态 信息 。 通 过 
访问 底层 数组 ， 保 证 了 data[j] 的 常量 时 间 效 率 。 
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# 5-3 列表 和 元 组 类 中 nonmutating 行为 的 渐 近 性 能 。 标 识 符 data, data1 和 data2 表示 列 
表 或 元 组 类 的 实例 , n、m、m 代表 它们 各 自 的 长 度 。 对 于 该 容器 的 检索 和 index 方法 ， 
Kk 表示 被 搜索 值 在 最 左边 出 现时 的 索引 (假如 没有 该 值 ， 那 么 k = mn)。 在 两 个 序列 间 进 
行 比较 ， 当 m 不 等 于 ns 时， 我 们 用 k 表示 最 左边 的 索引 ; BU, € k= min(m, n) 


操 作 运行 时 间 
len(data) O(1) 
data[j] O(1) 
data.count(value) O(n) 
data.index(value) O(k + 1) 
value in data O(k + ly 


datal==data2 


(similarly!=, < , <=, >, >=) O(k + 1) 
data[j:k] O(k—j+1 
datal + data2 O(n + m) 
C*data O(en) 


搜寻 值 的 出 现 

每 个 count, index 和 — contains 7AM MAR ARRAS. Kk, 2.43 节 的 
代码 段 2-14 演示 了 这 些 行为 是 怎样 被 实现 的 。 值 得 注意 的 是 ， 当 执行 count 方法 时 ， 必 须 
循环 遍历 整个 序列 。 当 检索 该 容器 中 是 否 存 在 某 个 元 素 或 者 确定 某 个 元 素 下 标 时 ,假如 该 
元 素 存在 ,一 旦 从 左 开始 第 一 次 找到 它 ， 便 立即 退出 循环 。 因 此 ，count 方 法 需要 检测 序列 
的 nn 个 元 素 , 而 index 和 — contains — 方法 只 有 在 最 坏 的 情况 下 才 会 检测 n 个 元 素 , 但 往 
往 都 会 更 快 。 我 们 可 以 给 出 实验 证 据 : i data = list(range(10 000 000))， 在 data 中 找 5, 在 
data 中 找 9 999 995， 或 者 甚至 失败 的 测试 ， 如 在 data 中 找 -5， 比 较 这 些 测试 之 间 的 相对 
效率 。 

字典 比较 

两 个 序列 之 间 的 对 比 被 定义 为 字典 。 在 最 坏 的 情况 下 ， 评 估 这 一 情况 需要 运行 时 间 正 比 
于 两 序列 中 长 度 较 短 序 列 的 迭代 〈 因 为 当 一 个 序列 结束 时 ， 字 典 结果 已 能 被 确定 )。 而 在 一 
些 情况 下 ， 能 更 高 效 地 评估 测试 结果 。 例 如 ， 若 评估 [7,3 , … ] < [7, 5, … ]， 很 明显 ， 不 用 
再 测试 列表 剩余 部 分 便 已 知 结果 是 True， 因 为 左 运算 对 象 的 第 二 个 元 素 严格 小 于 右 运 算 对 
象 的 第 二 个 元 素 。 

创建 新 的 实例 

表 5-3 的 后 三 个 行为 是 在 一 个 或 多 个 原 有 实例 的 基础 上 构造 的 一 个 新 实例 。 在 所 有 情况 
下 ， 运 行 时 间 都 取决 于 构造 和 初始 化 实例 所 耗费 的 时 间 ， 因 此 ， 渐 近 行 为 正比 于 该 实例 的 长 
度 。 于 是 ,我 们 发 现 数据 段 [6 000 000 : 6 000 008] 能 够 被 立即 构建 成 功 ， 因 为 它 仅 有 8 个 
元 素 。 数 据 段 [6 000 000 : 7 000 000] 有 一 百 万 个 元 素 ， 因 此 要 花费 更 多 的 时 间 去 创建 。 

变异 行为 

d 5-4 描述 了 list 类 变异 行为 的 效率 。 最 简单 的 行为 是 data[j] = val， 且 该 行为 被 特殊 的 
__setitem _ 方法 所 支持 。 此 行为 在 最 坏 情况 下 的 运行 时 间 为 0(1)， 因 为 其 仅 用 一 个 新 值 蔡 
换 列表 的 一 个 元 素 。 其 他 元 素 不 受 影响 且 底 层 数 组 的 大 小 不 变 。 值 得 分 析 的 更 有 趣 的 行为 是 
向 列表 中 增添 元 素 或 从 列表 中 删除 元 素 。 
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表 5-4 列表 类 变异 行为 的 渐 近 性 能 。data、data1 和 data2 表示 列表 类 实例 ，nn、 
m n? 代表 它们 各 自 的 长 度 


操作 运行 时 间 
data[j] = val O(1) 
data.append(value) O(1)* 
data.insert(k, value) O(n—k+1)* 
data.pop() O(1)* 
data.pop(k) O(n-k)* 
del data[k] 
data.remove(value) O(n)* 
datal.extend(data2) O(n)’ 
datal + =data2 
data.reverse() O(n) 
data.sort() O(n log n) 
* 摊 销 
向 列表 中 增添 元 素 


在 5.3 节 中 ， 我 们 充分 探讨 了 append 方法 。 在 最 坏 的 情况 下 ， 因 为 底层 数组 需要 调整 ， 
因此 运行 时 间 为 Q(n),， 但 在 摊 销 情况 下 ， 运 行 时 间 为 0(1)。 列 表 同 样 支持 insert(k，value) 
这 一 方法 ， 此 方法 将 给 定 的 值 插入 列表 索引 0 x k m n 的 位 置 ， 该 位 置 通过 将 所 有 后 续 元 
素 向 前 移动 一 个 单位 得 到 。 为 了 解释 清楚 ， 在 代码 段 5-3 介绍 的 DynamicArray 类 的 语义 
F, REE 5-5 给 出 了 此 方法 的 一 种 实现 方式 ， 使 用 了 代码 段 5-3 的 DynamicArray 类 。 在 
分 析 此 过 程 的 效率 时 有 两 个 复杂 因素 。 首 先 ， 我 们 注意 到 增添 一 个 元 素 需 要 调整 动态 数组 大 
小 。 这 部 分 工作 对 于 每 个 append 操作 来 说 ， 在 最 坏 情 况 下 运行 时 间 为 Q(n), 但 摊 销 时 间 仪 
为 O(1)。insert 操作 的 另 一 个 代价 是 移动 元 素来 为 新 元 素 提 供 位 置 。 此 过 程 的 时 间 取 决 于 新 
元 素 的 索引 以 及 由 此 产生 的 移动 后 续 元 素 的 个 数 。 


代码 段 5-5 DynamicArray 类 insert 方法 的 实现 


def insert(self, k, value): 


1 

2 """ Insert value at index k, shifting subsequent values rightward.” " " 

3 # (for simplicity, we assume 0 <= k «— n in this verion) 

4 if self. n == self. capacity: # not enough room 

5 self. resize(2 * self. capacity) # so double capacity 

6 for j in range(self. n, k, —1): # shift rightmost first 
7 self. A[j] = self. A[j—1] 

8 self. A[k] = value # store newest element 
9 self. n += 1 


如 图 5-16 Bras, HMB SE n- !1 的 引用 复制 到 索引 A, KRSI n - 2 的 引用 复 
制 到 索引 n -1 内， 如 此 往复 ， 直 到 将 索引 的 引用 复制 到 索引 k+ 1 内。 插入 索引 k 内 需要 
的 总 摊 销 时 间 为 O(n — k+ 1)。 

在 5.3.3 节 中 ， 当 探讨 Python 的 append 方法 的 
效率 时 ， 我 们 做 了 这 样 的 实验 : 在 不 同 大 小 的 列表 
上 重复 调用 ， 计 算 耗 费时 间 的 平均 值 ( 见 代 码 段 5-4 
和 表 5-2 ) 。 我 们 将 用 insert 方法 重复 该 实验 ， 并 尝 ”图 5-16 在 动态 数组 中 索引 为 上 的 位 置 开 
试用 三 种 不 同 的 访问 模式 。 和 辟 空 间 并 插入 新 元 素 





CTE | | | 
0 1 2 


k n-l 
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e 第 一 种 情况 ， 我 们 在 列表 的 开始 位 置 进行 重复 插入 ， 


for n in range(N): 
data.insert(0, None) 


e 第 二 种 情况 ， 我 们 在 列表 接近 中 间 的 位 置 进行 重复 插入 ， 


for n in range(N): 
data.insert(n // 2, None) 


e 第 三 种 情况 ,我 们 在 列表 的 结束 位 置 进行 重复 插入 ， 


for n in range(N): 
data.insert(n, None) 


X 5-5 给 出 了 实验 的 结果 ， 记 录 了 每 个 操作 的 平均 时 间 (不 是 整个 循环 的 总 时 间 )。 正 
如 所 预料 的 那样 ， 我 们 看 到 在 列表 的 开始 位 置 做 插入 是 最 费时 的 ， 每 个 操作 插入 时 间 呈 
线性 ， 因 而 运行 时 间 仍 为 Q(n)。 在 结束 位 置 做 插入 表现 为 O) 的 运行 时 间 ， 类 似 于 增添 
操作 。 


表 5-5 通过 观察 在 初始 为 空 的 列表 内 进行 的 连续 N 次 调用 ， 得 出 insert(k, val) 的 平均 运行 时 间 ， 单 
位 为 微 秒 。 令 n 表示 当前 列表 的 大 小 (与 最 终 列 表 大 小 作对 照 ) (单位 : hs) 









1 000 000 
351.590 
175.383 


从 列表 中 删除 元 素 

Python 的 list 类 提供 了 几 种 从 列表 中 删除 元 素 的 方法 。 调 用 pop() 删除 列表 的 最 后 一 个 
元 素 。 这 是 最 高 效 的 ， 因 为 其 他 所 有 元 素 都 保持 在 自己 的 原 有 位 置 。 这 虽然 是 一 个 效率 为 
O(1) 的 操作 ， 但 由 于 Python 不 定时 地 收缩 底层 数组 以 节省 内 存 ， 因 此 绑 定 是 摊 销 的 。 

带 参 数 的 方法 pop(k) 能 够 删除 列表 中 索引 为 k<n 的 元 素 ， 并 把 所 有 后 续 元 素 往 左 移 
动 ， 以 填补 由 删除 操作 导致 的 空缺 。 该 操作 的 效率 
为 O(n < 月 ， 因 为 移动 的 数量 取决 于 索引 上 的 选择 ， 
如 图 5-17 所 示 。 注 意 ， 这 表明 pop(0) 是 最 耗 时 的 
调用 ， 运行 时 间 为 Q(n)。( 见 练习 R-5.8 中 的 实验 ) 

list 类 提供 了 另 一 种 名 为 remove 的 方法 ， 该 
方法 允许 调用 者 指定 要 删除 的 值 (不 是 值 的 索引 )。 正 式 地 说 ， 该 方法 仅 删除 列表 中 第 一 次 
出 现 的 指定 值 ， 当 未 找到 该 值 时 ， 生 成 一 个 ValueError 异常 。 在 代码 段 5-6 中 ， 再 次 利用 
DynamicArray 类 做 说 明 ， 给 出 此 行为 的 一 种 实现 方式 。 

有 趣 的 是 ， 对 于 remove 方法 来 说 ， 没 有 “高 效 ” 的 情况 : 每 一 次 调用 都 需要 Q(n) 的 运 
行 时 间 。 该 过 程 部 分 工作 用 于 从 列表 开头 进行 搜索 ， 直 至 找到 索引 为 大 的 值 ， 而 剩余 的 从 大 
到 最 后 的 迭代 用 于 往 左 移动 元 素 。 该 线性 行为 能 用 实验 观察 到 ( 见 练习 C-5.24 ) 。 


012 k n-l 
图 5-17 删除 动态 数组 中 索引 为 上 的 元 素 


代码 段 5-6 对 DynamicArray 类 的 remove 方法 的 一 种 实现 


| def remove(self, value): 


2 """ Remove first occurrence of value (or raise ValueError) 
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3 # note: we do not consider shrinking the dynamic array in this version 

4 for k in range(self._n): 

5 if self. A[k] == value: # found a match! 

6 for j in range(k, self. .n — 1): # shift others to fill gap 

7 self. A[j] = self. A[j--1] 

8 self. A[self. n — 1] = None # help garbage collection 
9 self. n —— 1 # we have one less item 

10 return # exit immediately 

| raise ValueError('value not found!) # only reached if no match 
扩展 列表 


Python 提供 了 一 个 名 为 extend 的 方法 ， 该 方法 能 将 一 张 列 表 的 所 有 元 素 增添 到 另 一 张 
列表 的 末尾 。 在 作用 上 ， 调 用 data.extend(other) 输出 的 结果 和 如 下 代码 输出 的 结果 相同 : 


for element in other: 
data.append(element) 


在 任何 情况 下 ， 运 行 时 间 都 正比 于 另 一 张 列 表 的 长 度 ， 并 且 之 所 以 摊 销 ， 是 因为 第 一 张 
列表 的 底层 数组 需要 调整 大 小 以 容纳 增添 的 元 素 。 

在 实践 中 ， 相 对 于 重复 调用 append 方法 ， 我 们 倾向 于 选择 extend 方法 ， 因 为 渐 近 分 析 
中 隐 含 的 常数 明显 更 小 。Extend 方法 效率 更 高 缘 于 三 个 方面 : 首先 ， 使 用 合适 的 Python 方 
法 总 会 有 一 些 优势 ， 因 为 这 些 方法 通常 使 用 本 地 编译 语言 进行 执行 (不 是 用 作 解 释 Python 
代码 )。 其 次 ， 与 调用 很 多 独立 的 函数 相 比 ， 调 用 一 个 函数 完成 所 有 工作 的 开销 更 小 。 最 
后 ，extend 提升 的 效率 来 源 于 更 新 列表 的 最 终 大 小 能 提前 计算 出 。 假 如 第 二 个 数据 集 是 非 
稼 大 的 ， 当 重复 调用 append 方法 时 ， 底 层 动态 数组 会 有 多 次 调整 大 小 的 风险 。 知 调用 一 
extend 方法 ， 最 多 执行 一 次 调整 操作 。 练 习 C-5.22 用 实验 探究 了 这 两 种 方法 的 相对 效率 。 

构造 新 列表 

有 几 种 用 于 构造 新 列表 的 语法 。 在 几乎 所 有 情况 下 ， 该 行为 的 渐 近 效率 在 创建 列表 的 长 
度 方面 是 线性 的 。 然 而 ， 与 前 面 讨论 的 extend 方法 的 情况 类 似 ， 在 实际 效率 上 有 明显 的 不 同 。 

在 1.9.2 节 中 ， 使 用 一 个 诸如 squares = [ k*k for k in range(l,n+ 1)] 的 例子 作为 


squares — [] 
for k in range(1, n+1): 
squares.append(k*k) 


的 一 种 速记 方式 ， 并 由 此 引入 了 列表 推导 式 (list comprehension) 的 话题 。 实 验 将 会 证 明 使 
用 列表 推导 式 语法 比 不 断 增 添 数据 来 建 表 速 度 明显 更 快 ( 见 练习 C-5.23 )。 

类 似 地 ， 使 用 乘法 操作 初始 化 一 张 具 有 固定 值 的 列表 ， 也 是 一 种 很 常见 的 Python 风格 。 
例如 ， 语 句 [0]*n 生成 一 张 长 度 为 *、 所 有 值 都 等 于 0 的 列表 。 这 样 做 不 但 语法 简便 ， 而 且 
pe tt re ed 


5.4.2 Python 的 字符 串 类 

在 Python 中 ， 字 符 串 是 非常 重要 的 。 我 们 在 1.3 节 中 ， 通 过 对 不 同 运算 符 的 讨论 ， 介 
绍 了 字符 串 的 使 用 。 在 附录 A 的 表 A-l ~K A-4 中 ， 给 出 了 该 类 已 命名 方法 的 综合 概要 。 
本 节 中 ， 我 们 不 再 正式 分 析 每 个 行为 的 效率 ， 却 希望 在 一 些 值 得 注意 的 问题 上 做 一 些 批 注 。 
一 般 来 说 ,我们 用 n 表示 字符 串 的 长 度 。 对 于 那些 需要 男 一 个 字符 串 作为 样 例 的 操作 ,我们 
用 m 表示 样 例 字 符 串 的 长 度 。 

对 许多 行为 的 分 析 常 靠 直 觉 。 例 如 ， 生 成 新 字符 串 的 方法 (如 capitalize, center, strip 
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方法 ) 需要 的 时 间 与 该 方法 所 生成 的 字符 串 长 度 之 间 呈 线性 关系 。 字 符 串 的 许多 行为 (例如 ， 
islower) 以 布尔 条 件 进 行 测试 ， 在 最 坏 情况 下 需要 检查 n 个 字符 ， 此 时 运行 时 间 为 Q(n)。 但 
是 当 结果 很 明显 时 ， 循 环 就 很 快 结 束 (例如 ， 若 第 一 个 字符 是 大 写字 母 ，islower 能 立即 返回 
False)。 比 较 操 作 符 lin, ==, <) 也 属于 这 一 种 情况 。 

样 例 匹 配 

有 一 些 更 有 趣 的 行为 ， 从 算法 角度 来 说 ， 这 些 行为 在 某 种 程度 上 取决 于 在 较 大 的 字符 
串 中 找到 字符 样 例 。 所 要 寻找 的 目标 是 这 些 方法 的 核心 (PM contains _, find, index, 
count 、replace 和 split)。 字 符 串 算 法 将 会 是 第 13 章 的 课题 ，13.2 节 的 重心 是 特别 著名 的 模 
式 匹 配 (pattern matching) 问题 。 有 一 种 运行 时 间 为 O(m n) 的 简单 实现 方法 : 我 们 为 此 样 例 
考虑 了 n 一 m+ 1 种 可 能 的 起 始 索 引 ， 每 个 起 始 索 引 都 需要 花费 Om) 的 运行 时 间 用 于 检查 该 
样 例 是 否 匹 配 。 而 在 13.2 节 中 ， 我 们 将 会 编写 一 个 算法 ， 用 于 在 O(n) 时 间 内 寻找 最 大 长 度 
为 n 的 字符 串 中 长 度 为 m 的 字符 串 。 

组 成 字符 串 

最 后 ， 我 们 想 对 几 种 能 组 成 大 字符 串 的 方法 进行 评论 。 接 下 来 做 一 个 学 术 练 习 ， 假 定 有 
一 个 较 大 的 字符 串 document， 我 们 的 目标 是 生成 一 个 新 的 字符 串 letters ， 该 字符 串 仅 包含 原 
字符 串 的 英文 字母 字符 〈 即 ， 将 空格 、 数 字 、 标 点 符号 除去 )。 我 们 或 许 会 采用 如 下 循环 来 
得 到 结果 ， 


# WARNING: do not do this 


letters = '' # start with empty string 
for c in document: 
if c.isalpha( ): 
letters += c # concatenate alphabetic character 


虽然 上 面 的 代码 段 实现 了 该 目标 ， 但 其 效率 可 能 非常 低下 。 因 为 字符 串 大 小 固定 ， 指 令 
letters + = < 很 可 能 计算 串联 部 分 letters + c， 并 把 结果 作为 新 的 字符 串 实例 且 重 新 分 配给 标识 
FF letters。 构 造 新 字符 串 所 用 时 间 与 该 字符 串 的 长 度 成 正比 。 假 如 最 终结 果 有 n 个 字符 ， 连 续 
串联 计算 所 花费 的 时 间 与 所 谓 的 求 和 公式 1+2+3+…+7 成 正比 ， 因 此 ， 运 行 时 间 为 (PP )。 

这 类 效率 低 的 代码 在 Python 中 很 普遍 ， 大 概 跟 代码 的 自然 外 观 有 点 关系 ， 且 容易 对 += 
操作 符 如 何 与 字符 串 连 接 产 生 误解 。Python 解释 器 后 来 的 一 些 实现 方法 中 对 开发 进行 了 最 优 
化 ， 能 够 允许 这 类 代码 的 运行 时 间 为 线性 ， 但 不 是 所 有 Python 实现 方法 都 支持 。 最 优化 如 
F: 指令 letters += c 之 所 以 会 产生 新 的 字符 串 实例 ， 是 因为 假如 程序 中 有 另 一 个 变量 要 引 
用 原 字 符 串 ， 则 原 字符 串 必须 保持 不 变 。 另 一 方面 ， 假 如 Python 知道 在 该 问题 中 对 该 字符 
串 没 有 其 他 引用 ， 但 通过 直接 改变 字符 串 (作为 一 个 动态 数组 ) 可 以 更 高 效 地 实现 +=。 当 发 
生 上 述 情况 时 ，Python 解释 器 已 经 为 每 个 对 象 包含 了 所 谓 的 引用 计数 器 。 该 计数 器 部 分 用 
于 确定 某 个 对 象 是 否 能 被 垃圾 回收 ( 见 15.1.2 节 )。 但 在 此 情形 中 ， 计 数 器 给 出 了 一 种 方法 ， 
用 于 检测 是 否 存在 对 字符 串 的 其 他 引用 ， 因 此 ， 人 允许 最 优化 。 

保证 能 在 线性 时 间 内 组 成 字符 串 的 另 一 个 更 标准 的 Python 术语 是 使 用 临时 表 存 储 单个 数 
据 ， 然 后 使 用 字符 串 类 的 join 方法 组 合 最 终结 果 。 将 此 技巧 用 于 我 们 之 前 例子 将 会 如 下 编写 : 


temp = [] # start with empty list 
for c in document: 
if c.isalpha( ): 
temp.append(c) 4 append alphabetic character 


letters = ' ' join(temp) # compose overall result 
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该 方法 能 确保 运行 时 间 为 O(n)。 首 先 ， 我们 注意 到 连续 nn 次 append 调用 共 需 要 O(n) 
的 运行 时 间 ， 其 运行 时 间 可 以 根据 此 操作 的 摊 销 花费 定义 得 出 。 最 后 对 join 的 调用 也 能 保证 
在 组 合 字符 串 的 最 终 长 度 上 花费 的 时 间 呈 线性 。 

正如 在 上 一 节 末 尾 所 讨论 的 那样 ,我们 使 用 列表 推导 式 语法 来 创建 临时 表 ， 而 不 是 重复 
调用 append 方法 ， 能 够 进一步 提高 实际 执行 速度 。 方 案 如 下 : 


letters = '' join([c for c in document if c.isalpha( )]) 
还 有 更 好 的 方法 一 -我 们 使 用 生成 器 理解 可 以 完全 避免 使 用 临时 表 : 
letters = '' join(c for c in document if c.isalpha( )) 


5.5 ”使 用 基于 数组 的 序列 


5.5.1 为 游戏 存储 高 分 

我 们 学 习 的 第 一 个 应 用 是 为 某 款 视频 游戏 存储 一 列 高 分 条 目 。 这 是 许多 必须 存储 一 系列 
对 象 的 应 用 程序 的 代表 。 我 们 可 能 很 容易 选择 为 医院 的 病人 存储 记录 或 者 登记 某 足 球 队 队员 
的 姓名 。 然 而 ， 这 里 我 们 将 关注 存储 高 分 条 目 ， 这 是 一 个 简单 且 数 据 丰 富 的 应 用 程序 ， 足 以 
表示 一 些 重要 的 数据 结构 概念 。 

刚 开 始 ， 我 们 考虑 在 对 象 中 存储 什么 信息 来 表示 高 分 条 目 。 显 然 ， 信 息 中 一 定 含 有 一 个 表 
示 分 数 的 整数 ， 我 们 用 _score 来 表示 。 另 一 个 有 用 的 信息 是 得 分 者 姓名 ， 我 们 用 name 表示 。 
我 们 能 继续 增加 字段 表示 得 分 的 数据 或 者 得 分 的 游戏 统计 的 字段 。 但 我 们 忽略 一 些 使 得 例子 变 
得 容易 的 细节 。 在 代码 段 5-7 中 ， 我 们 给 出 一 个 Python 类 GameEntry， 用 于 表示 游戏 条 目 : 


代码 段 5-7 一 个 简单 GameEntry 类 的 Python 代码 。 其 中 包括 返回 游戏 条 目 对 象 的 姓名 和 分 数 的 方 
法 ， 还 有 返回 表示 该 条 目的 字符 串 的 方法 


class GameEntry: 
""" Represents one entry of a list of high scores." "" 


1 

2 

3 

4 def init. (self, name, score): 
5 self. name — name 

6 self. score — score 

7 

8 


def get name(self): 
9 return self. name 


ll def get. score(self): 
12 return self. score 


14 def ..str... (self): 
15 return ' (40), (1))'.format(self. name, self. score) # e.g., '(Bob, 98)' 


存储 高 分 的 类 

为 了 存储 一 系列 高 分 ， 我 们 编写 一 个 类 并 将 其 命名 为 Scoreboard， 一 个 scoreboard 对 
象 只 能 存储 一 定数 量 的 高 分 , 一旦 达到 存储 界限 ， 新 的 分 数 必须 严格 大 于 得 分 板 上 最 低 的 
“最 高 分 ”才能 记 入 scoreboard。 理 想 的 scoreboard 的 长 度 取决 于 游戏 ， 可 能 为 10、50 或 者 
500。 因 为 这 个 长 度 非常 依赖 游戏 ， 我 们 将 它 指定 为 Scoreboard 结构 的 参数 。 

在 内 部 ， 我 们 将 会 使 用 名 为 board 的 Python 列表 (list) 来 管理 表示 高 分 的 GameEntry 
实例 。 因 为 希望 scordboard 最 终 能 被 填 满 ， 所 以 使 初始 化 列表 尽 可 能 大 以 便 能 存储 最 多 的 分 
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数 ， 但 起 初 将 所 有 条 目 都 设 为 None。 最 初 给 列表 分 配 了 最 大 化 的 容量 ， 因 此 执行 过 程 中 不 
再 需要 调整 大 小 。 当 添加 条 目 时 ， 我 们 将 会 从 列表 的 索引 0 开始 ， 从 最 高 分 到 最 低 分 依次 存 
fik. EI 5-18 所 示 即 为 这 种 数据 结构 的 一 个 典型 样 例 。 





k 





图 5-18 一 张 长 度 为 10 有 序列 表 的 示意 图 从 索引 0 一 5， 共 存储 6 个 
GameEntry 对 象 的 引用 ， 其 余 单元 仍 为 None 


代码 段 5-8 给 出 了 Scoreboard 类 的 一 个 完整 的 Python KMPH. HE RRE 66 f8] A, 
下 面 的 语句 

self. board — [None] * capacity 

创建 一 张 所 需 长 度 的 列表 ， 而 所 有 条 目 都 是 None。 其 中 还 包含 一 个 额外 的 实例 变量 
_n， 用 于 表示 表 内 当前 的 实际 条 目 数 。 为 了 方便 ,我 们 的 类 也 支持 ”getitem 方法， 此 
方法 通过 给 定 的 索引 ， 使 用 board[i] 能 检索 获得 一 个 条 目 (或 者 假如 没有 这 样 的 条 目 就 返回 
None)， 我 们 也 支持 简单 的 _str 方法， 该 方法 返回 用 每 行 一 个 条 目 表 示 整 个 scoreboard 
的 字符 串 。 

代码 段 5-8 Scoreboard 类 的 Python 代码 ， 其 中 包含 一 系列 有 序 的 分 数 ， 这 些 分 数 代 
表 GameEntry 对 象 





class Scoreboard: 


I 

2  """Fixed-length sequence of high scores in nondecreasing order." "" 

3 

4 def __init__(self, capacity=10): 

5 """ Initialize scoreboard with given maximum capacity. 

6 

7 All entries are initially None. 

g ware 

9 self. board = [None] * capacity # reserve space for future scores 
10 self. n — 0 # number of actual entries 


12 def ..getitem.. (self, k): 


13 """Return entry at index k.""" 

14 return self. board[k] 

15 

16 def __str __(self): 

17 """ Return string representation of the high score list." "" 
18 return '\n' join(str(self. board[j]) for j in range(self._n)) 


20 def add(self, entry): 


21 """ Consider adding entry to high scores." "" 

22 score — entry.get score() 

23 

24 # Does new entry qualify as a high score? 

25 # answer is yes if board not full or score is higher than last entry 


26 good = self._n < len(self. board) or score > self. board[—1].get.score() 








27 

28 if good: 

29 if self. n < len(self. board): # no score drops from list 
30 self. n += 1 # so overall number increases 
3] 

32 # shift lower scores rightward to make room for new entry 

33 j 三 self.-n — 1 

34 while j > 0 and self. board[j —1].get score( ) < score: 

35 self. board[j] = self. board[j— 1] # shift entry from j-1 to j 
36 j—=1 # and decrement j 

37 self. board[j] = entry # when done, add new entry 
增添 一 个 条 目 


Scoreboard 类 中 最 有 趣 的 方法 是 add 方法 ， 该 方法 能 够 考虑 到 将 新 的 条 目 添加 至 scorebord 
中 。 要 记 住 : 每 个 条 目 不 一 定 要 绑 定 一 个 高 分 。 假 如 board 还 没有 满 ， 任 何 一 个 新 的 条 目 都 
可 以 被 记录 。 一 旦 board 已 满 ， 新 的 条 目 只 有 严格 大 于 一 个 或 多 个 分 数 时 ， 才 能 被 记 入 ， 特 
He, scoreboard 中 的 最 后 一 个 条 目 是 最 低 的 高 分 。 

当 考 虑 新 的 分 数 时 ， 我 们 先 要 确定 该 分 数 是 否 满足 高 分 的 条 件 。 假 如 满足 ， 若 board 未 
满 ， 我 们 便 增加 有 效 分 数 的 个 数 _n。 假 如 board 已 满 ， 增 添 新 的 高 分 将 会 导致 某 个 其 他 高 分 
从 scoreboard 中 被 删除 ， 因 此 条 目的 总 数 保持 不 变 。 

为 了 正确 地 将 新 条 目 放 入 列表 中 ， 最 后 的 工作 是 将 较 低 分 往 后 移动 一 个 位 置 CÓ 
socreboard 已 满 时 ， 最 低 分 将 会 被 完全 删除 )。 这 个 过 程 与 在 前 面 list 类 的 insert 方法 的 实现 
方式 很 类 似 。 在 scoreboard 情形 中 ， 不 需要 移动 任何 保存 在 数组 尾部 的 None 引用 ， 因 此 该 
过 程 能 按 图 5-19 所 示 的 那样 进行 。 










id) 
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图 5-19 为 Jill 增加 一 个 新 的 GameEntry 到 scoreboard。 为 了 给 新 的 引用 提供 空 
间 ， 我 们 必须 将 分 数 比 新 分 数 低 的 游戏 条 目的 引用 往 右 移动 一 个 单元 ， 
然后 我 们 能 将 新 条 目 增添 到 索引 2 的 位 置 


为 了 完成 最 后 的 步 又， 我 们 首先 考虑 索引 j = self._n - 1， 当 完成 此 操作 后 ， 该 索引 指向 
最 后 一 个 GameEntry 实例 。7 要 么 是 新 条 目的 正确 索引 ， 要 么 是 一 个 或 者 多 个 暂时 有 更 低 分 
数 的 条 目的 索引 。 当 循环 执行 到 第 34 行 时 ， 只 要 索引 7 - 1 条 目的 分 数 比 新 条 目 分 数 低 ， 就 
把 索引 往 右 移动 , j 自 减 1。 


5.5.2 为 序列 排序 


上 一 节 中 ， 我 们 学 习 了 一 个 应 用 程序 : 在 序列 中 的 给 定位 置 增添 对 象 ， 通 过 移动 其 他 元 
素 保 持 先前 顺序 不 变 。 本 节 中 ， 我 们 使 用 类 似 的 技巧 解决 排序 问题 ， 即 把 开始 元 素 无 序 的 序 
列 通过 重新 排序 变 成 非 递减 序列 。 
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插入 排序 算法 

本 书 将 介绍 几 种 排序 算法 ， 其 中 大 部 分 将 在 第 12 章 中 介绍 。 作 为 准备 ， 本 节 将 介绍 一 
种 友好 简单 的 排序 算法 一 一 插入 排序 。 对 基于 数组 的 序列 ， 该 算法 按 如 下 方式 执行 。 我 们 从 
数组 的 第 一 个 元 素 开 始 。 一 个 元 素 本 身 已 排序 。 接 着 我 们 考虑 数组 的 下 一 个 元 素 。 假 如 它 比 
第 一 个 元 素 小 ， 我 们 就 把 这 两 个 数 进行 交换 。 之 后 我 们 考虑 数组 中 的 第 三 个 元 素 ， 把 它 与 左 
边 前 两 个 元 素 进行 比较 和 交换 ， 直 至 找到 自己 的 位 置 。 考 虑 第 四 个 元 素 ， 把 它 与 左边 前 三 个 
元 素 进行 比较 和 交换 ， 直 至 找到 正确 的 位 置 。 对 第 五 、 第 六 及 其 余 元 素 继续 执行 上 述 操作 ， 
直至 整个 数组 被 完全 排序 。 我 们 可 以 用 伪 代 码 描述 插入 排序 算法 ， 示 例如 代码 段 5-9 所 示 。 


代码 段 5-9 ”插入 排序 算法 的 高 级 语言 描述 
Algorithm InsertionSort(A): 
Input: An array A of n comparable elements 
Output: The array A with elements rearranged in nondecreasing order 
for k from 1 ton — 1 do 
Insert A[k] at its proper location within A[0], A[1], ..., A[k]. 


这 是 对 插入 排序 的 一 种 简单 高 级 的 描述 。 假 如 回顾 5.5.1 节 中 的 代码 段 5-8， 我 们 会 看 
到 在 高 分 列表 中 插入 新 条 目的 操作 与 在 插入 排序 算法 中 插入 正 被 考虑 的 元 素 的 操作 几乎 相同 
(唯一 不 同 是 游戏 高 分 从 高 到 低 已 经 排序 )。 在 代码 段 5-10 中 ,我 们 给 出 插入 排序 算法 的 一 种 
Python 实现 方法 ， 使 用 外 层 循环 轮流 考虑 每 个 元 素 ， 内 层 循环 移动 正 被 考虑 的 元 素 ， 将 其 移 
动 到 其 左边 (已 排序 ) 子 数组 的 合适 位 置 。 图 5-20 所 示 即 为 插入 排序 算法 运行 过 程 的 示例 。 


一 DO move 
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9123 45 6 7 01-234 5257 D I ZIA 5.577 
fsfclEfF ofa)?! 
melce, 

D ] BS 4 & 6'T 
图 5-20 在 8 字符 数组 中 执行 插入 排序 算法 。 每 一 行 对 应 外 部 循环 的 一 次 迭代 ， 一 行内 
的 每 一 次 复制 对 应 内 层 循环 的 一 次 迭代 。 正 被 插入 的 当前 元 素 在 数组 中 被 突出 
显示 ， 并 作为 当前 值 
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$i A HE FF BR EE T Jc YI BR TO F AFAA ) 的 运行 时 间 。 如 果 数 组 最 初 是 反 序 ， 
则 工作 量 最 大 。 另 外 ， 如 果 初 始 数组 已 基本 排序 或 已 完全 排序 ， 则 插入 排序 运行 时 间 为 
O(n), AAAI TK BUR se SRA IE 


代码 段 5-10 ”在 列表 中 执行 插入 排序 的 Python 代码 


def insertion. sort(A): 


1 

2  """Sort list of comparable elements into nondecreasing order." "" 

3 fork in range(1, len(A)): # from 1 to n-1 

4 cur = Afk] # current element to be inserted 

5 j&k # find correct index j for current 

6 while j > 0 and A[j—1] > cur: # element A[j-1] must be after current 
y A[j] = A[j-1] 

8 j-=1 

9 A[j] = cur # cur is now in the right place 


5.5.3 ”简单 密码 技术 


字符 串 和 列表 的 一 个 有 趣 应 用 是 密码 学 ( cryptography)， 它 是 一 种 秘密 信息 的 科学 及 其 
应 用 。 这 一 领域 研究 加 密 的 方法 ， 即 将 称 为 明文 的 信息 转换 成 称 为 密 文 的 加 密 信息 。 同 样 ， 
该 领域 也 研究 对 应 的 解密 方法 ， 即 将 密 文 转变 回 原来 的 明文 。 

可 以 说 最 早 的 加 密 技 术 是 凯撒 密码 (Caesar cipher)， 该 技术 以 尤 利 乌 斯 .凯撒 的 名 字 命 
名 ,凯撒 使 用 此 技术 保护 重要 军事 情报 。( 所 有 凯撒 情报 都 是 用 拉丁 语 写 的， 当然 ， 这 使 得 
我 们 大 多 数 人 都 不 能 阅读 这 些 情 报 ! ) 凯撒 密码 是 一 种 简单 隐藏 情报 的 方法 ， 这 些 情报 用 字 
母 表 组 成 单词 的 语言 编写 。 

凯撒 密码 涉及 替换 情报 中 的 每 一 个 字母 ， 用 在 字母 表 中 继 该 字母 固定 数目 后 的 字母 进行 
替换 。 因 此 ， 在 英语 情报 中 ， 我 们 可 以 把 每 个 A 都 用 D 替换 ， 每 个 B 都 用 E BR, BTC 
都 用 F 替换 ， 等 等 ， 即 移动 三 个 字母 。 以 此 类 推 , 直到 用 ZzZ 替换 WW。 之后， 我 们 将 此 替换 
ERMA, MK xX HARK, YHB, ZAC HMR. 

字符 串 和 字符 列表 之 间 进 行 转换 

给 定 的 字符 串 是 固定 不 变 的 ， 我 们 不 能 直接 编辑 实例 对 其 加 密 。 另 外 ,我 们 的 目标 是 产生 
一 个 新 字符 串 。 一 种 执行 字符 串 转换 的 便捷 方法 是 创建 等 效 字 符 列 表 ， 编 辑 列表 ， 然 后 将 该 列 
表 重 新 组 成 (新 ) 字符 串 。 第 一 步 可 以 通过 把 字符 串 作 为 参数 传递 给 列表 类 的 构造 函数 完成 。 
例如 ， 表 达 式 list(bird) 会 得 到 ['b', i', r, 'd'] 这 样 的 结果 。 相 应 地 ， 我 们 可 以 在 空 字符 串 上 通过 
用 字符 列表 作为 参数 调用 join 方法 ， 并 将 该 字符 列表 组 成 字符 串 。 例 如 ， 调 用 "join([b', ‘i, 'r, 
'd]) 返回 字符 串 "bird'。 

使 用 字符 作为 数组 索引 

如 果 我 们 像 数 组 索引 那样 为 每 个 字母 编码 ， 那 么 A 就 是 0、B 是 1、C 是 2， 等 等 , 之 
后 我 们 可 以 用 + 轮转 写 一 个 简单 的 公式 表示 凯撒 密码 : 用 字母 (i + r)mod 26 来 替换 每 个 字母 
i， 这 里 的 mod 就 是 模 数 运算 子 (modulo operator)， 当 执行 整除 后 返回 余数 。 在 Python 中 
该 运算 子 用 % 表示 ， 这 正 是 我 们 所 需要 的 运算 子 ， 可 以 在 字母 表 未 尾 处 很 容易 地 执行 轮转 ， 
因为 26 mod 26 Æ 0, 27 mod 26 Æ 1, 28 mod 26 是 2。 凯 撒 密码 的 解密 算法 与 此 相反 一 一 
采用 轮转 ， 用 每 个 字母 前 的 第 r 个 字母 代替 自己 ( 即 字母 i 被 字母 (i - r)mod 26 替换 )。 

我 们 可 以 用 另 一 个 字符 串 指 明 替 换 规则 来 描述 转换 过 程 。 举 一 个 具体 的 例子 ， 假 
设 正 在 使 用 一 个 三 字符 轮转 的 凯撒 密码 。 我 们 应 该 提前 计算 出 用 于 替换 A ~ ZS 
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母 的 字符 串 。 比 如 ，A 应 该 被 D 蔡 换 ，B 被 E 蔡 换 ， 等 等 。26 个 替换 字母 按 顺 序 就 是 
“DEFGHIJKLMNOPQRSTUVWXYZABC”。 之 后 我 们 可 以 使 用 这 个 转换 的 字符 串 作 为 向 导 
来 加 密 情报 。 剩 下 的 任务 就 是 如 何 为 原 情 报 的 每 个 字母 快速 地 找到 替换 字母 。 

幸运 的 是 ， 我 们 可 以 依据 字符 在 Unicode 中 用 整数 代码 点 表示 这 一 事实 ， 且 拉丁 字母 表 
中 大 写字 母 的 代码 点 是 连续 的 (为 简单 起 见 ， 我 们 限制 只 对 大 写字 母 加 密 )。Python 支持 在 
整数 代码 点 和 单字 符 字 符 串 之 间 进 行 转 换 的 函数 。 尤 其 是 将 单字 符 字符 串 作 为 参数 传递 到 也 
数 ord(c) 中 ， 能 得 到 该 字 节 的 整数 代码 点 。 相 应 地 ， 将 整数 传人 函数 chr(j) 中 能 得 到 其 所 对 
应 的 单字 符 字 符 串 。 

在 凯撒 密码 中 ， 为 了 确定 某 个 字 节 的 替换 字符 ， 我 们 需要 将 字符 'A' ~ 'Z' 分 别 映射 为 
0 一 25 的 整数 。 执 行 此 变换 的 公式 即 为 j = ord(c) - ord('A')。 做 一 次 检查 ， 假 如 c H'A', R 
们 得 到 j=0。 当 c='B' 时 ， 我 们 发 现 其 顺序 值 正好 比 'A' 多 1， 故 它们 相差 1。 一 般 来 说 ， 由 
此 计算 得 到 的 整数 7 能 够 在 我 们 预先 翻译 的 字符 串 中 充当 索引 ， 如 图 5-21 所 示 。 


编码 数组 





0 2345 6 7 8 9 10 1112 13 14 15 16 17 18 19 20 21 22 23 24 25 
用 呈 作 为 索引 i 

Unicode 值 一 一 ” om 

图 5-21. 用 大 写字 母 作为 索引 值 ， 演 示 凯 撒 密 码 加密 的 替换 规则 


代码 段 5-11 给 出 了 一 个 Python 类 ， 可 以 为 凯撒 密码 赋予 任意 轮转 值 ， 并 且 证 明了 此 用 
法 。 运 行 此 程序 时 (执行 一 个 简单 测试 )， 得 到 的 输出 结果 如 下 : 


Secret: WKH HDJOH LV LQ SODB; PHHW DW MRH'V. 
Message: THE EAGLE IS IN PLAY; MEET AT JOE'S. 


该 类 的 构造 函数 为 给 定 值 建立 了 加 密 前 后 的 字符 串 。 加 密 和 解密 算法 就 像 一 双手 ， 本 质 
上 是 相同 的 ， 所 以 我 们 用 不 公开 的 实例 方法 transform 执行 这 两 种 算法 。 


代码 段 5-11 凯撒 密码 的 一 个 完整 Python 类 


这 是 T 蔡 换 的 位 置 


class CaesarCipher: 


l 

2  """Class for doing encryption and decryption using a Caesar cipher.” ”” 

3 

4 def init. (self, shift): 

5 """ Construct Caesar cipher using given integer shift for rotation." "" 

6 encoder — [None] * 26 # temp array for encryption 
7 decoder = [None] * 26 # temp array for decryption 
8 for k in range(26): 

9 encoder[k] = chr((k + shift) % 26 + ord('A')) 

10 decoder[k] = chr((k — shift) % 26 + ord('A')) 

11 self. forward = ' ' join(encoder) # will store as string 

12 self. backward = '' join(decoder) # since fixed 

13 

l4 def encrypt(self, message): 

15 """ Return string representing encrypted message." "" 

16 return self. transform(message, self. forward) 

17 

18 def decrypt(self, secret): 

19 """Return decrypted message given encrypted secret." "" 


20 return self. transform(secret, self. backward) 
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22 def transform(self, original, code): 


23 """Utility to perform transformation based on given code string.” "" 
24 msg = list(original) 

25 for k in range(len(msg)): 

26 if msg[k].isupper( ): 

27 j = ord(msg[k]) — ord('A') # index from 0 to 25 
28 msg[k] = code[j] # replace this character 
29 return ' ' .join(msg) 

30 

31 if .name.. == '__main__': 


32 cipher = CaesarCipher(3) 

33 message — "THE EAGLE IS IN PLAY; MEET AT JOE'S." 
34 coded — cipher.encrypt(message) 

35 print('Secret: ', coded) 

36 answer = cipher.decrypt(coded) 

37  print('Message: ', answer) 


5.6 多维 数据 集 

在 Python 中 ， 列表、 元 组 和 字符 串 是 一 维 的 。 我 们 用 单个 索引 便 能 访问 序列 中 的 每 个 
元 素 。 但 许多 计算 机 应 用 程序 都 涉及 多 维 
数据 集 。 例 如 ， 计 算 机 图 形 通常 用 二 维 或 
三 维 来 建 模 。 地 理 信息 通常 表示 为 二 维 ， 
医学 图 像 可 以 给 出 病人 的 三 维 扫描 ， 公 司 
估 值 通常 基于 大 量 的 独立 金融 测试 ， 这 些 
均 可 以 用 多 维 数据 来 建 模 。 二 维 数组 有 时 
也 称 为 矩阵 ( matrix)， 我 们 可 以 用 两 个 索 | | 
引 i 和 jj 指向 矩阵 中 的 单元 。 第 一 个 索引 通 ”图 5-2 ETT FE 8 47 10 FI. 
常 表示 行 号 ， 第 二 个 表示 列 号 ， 并 且 在 计 和 列 都 是 从 0 开始 。 mir eae 
算 机 学 中 ， 这 两 个 索引 习惯 上 从 0 开始 。 stores， 则 stores[3][5] 的 值 为 100，stores[6] 
图 5-22 所 示 为 整数 数据 的 二 维 数据 集 。 这 Pie 
个 数据 集 可 以 用 来 表示 美国 曼哈顿 不 同 地 区 的 商店 数量 。 

在 Python 中 ， 二 维 数据 集 通 常 表示 为 列表 的 列表 。 我 们 用 多 行列 表 表 示 二 维 数组 ， 每 
行 本 身 表 示 一 张 列 表 。 例 如 ， 二 维 数据 


22 18 FOO 5 33 
45 32 830 120 750 
4 880 45 66 61 


在 Python 中 可 以 按照 如 下 形式 存储 : 

data = [ [22, 18, 709, 5, 33], [45, 32, 830, 120, 750], [4, 880, 45, 66, 61]] 

这 样 表示 的 好 处 是 : 我 们 可 以 很 自然 地 使 用 诸如 data[1][3] 这 样 的 语法 表示 1 行 3 列 的 
数据 ， 比 如 ， 外 表 中 第 二 个 条 目 data[1] 本 身 也 是 一 张 表 ， 因 此 是 可 索引 的 。 

创建 多 维 列表 

为 了 快速 初始 化 一 张 一 维 列表 ， 一 般 使 用 诸如 data = [0]*n 这 样 的 语句 来 创建 具有 个 
0 的 列表 。 在 图 5-7 和 图 5-8 中 ,我 们 从 技术 角度 做 了 强调 ， 这 种 方式 创建 了 一 张 长度 为 n 
且 所 有 条 目 都 指向 同一 个 整数 实例 的 列表 ,但 是 这 种 混 又 方式 并 没有 取得 多 么 有 意义 的 结 
果 ， 因 为 在 Python H, int 类 是 固定 不 变 的 。 

在 创建 列表 的 列表 时 ， 我 们 要 更 加 小 心 。 假 如 想 要 创建 一 张 相 当 于 有 7 行 < 列 的 二 维 整 
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数列 表 的 列表 ， 并 把 所 有 值 都 初始 化 为 0， 我 们 可 能 会 采用 如 下 的 错误 语句 


data = ([0] * c) *r 3 Warning: this is a mistake 


([0]*c) 确实 创建 了 一 张 有 c 个 0 的 列表 ， 但 通过 将 列表 乘 ”>， 只 会 创建 一 张 长 度 为 r*c 
的 一 维 列表 ， 比 如 [2, 4, 6]*2 创建 为 [ 2， 4, 6, 2, 4, 6] 这 样 的 列表 。 

还 有 一 种 更 好 一 点 但 仍 有 问题 的 做 法 : 创建 一 张 把 包含 n 0 的 列表 作为 自己 唯一 元 素 的 列 
表 ， 然 后 把 这 个 列表 乘 以 上， 即使 用 如 下 的 语句 创建 : 


data = [ [0] « c] *r # Warning: still a mistake 

这 更 加 接近 了 ， 因为 我 们 实际 上 确实 得 到 了 一 

正式 的 列表 的 列表 的 结构 。 问 题 却 是 data — snl 
所 有 7 个 条 目 都 指向 了 同一 个 实例 ， 该 实例 即 为 data: p 
有 ec 个 0 的 列表 。 图 5-23 Brzs Bl APRAN 
的 示例 。 

这 确实 是 一 个 问题 。 赋 值 一 个 条 目 ， 例 如 
data[2][0] = 100， 将 可 能 使 得 第 二 级 列表 的 第 一 
个 条 目 指向 新 的 值 100。 而 第 二 级 列表 的 那个 单 
元 也 表示 data[0][0] 的 值 ， 因 为 第 data[0]“ 行 ”和 data[2]“ 行 ”指向 同一 个 第 二 级 列表 。 








图 5-23 一 个 用 3x6 的 数据 集 作 为 列表 的 
列表 的 错误 表示 ， 该 数据 集 用 语句 
data-[[0]*6]*3 创建 (为 了 简单 起 见 ， 我 
们 忽略 了 第 二 级 列表 的 值 为 引用 类 型 ) 





图 5-24 3x6 数 据 集 作 为 列表 的 列表 的 一 种 有 效 表示 方法 (为 了 简便 起 见 ， 我们 忽 
略 了 第 二 级 列表 值 是 引用 类 型 这 一 事实 ) 


为 了 能 正确 实例 化 二 维 列表 ， 我们 必须 确保 原始 列表 的 每 个 单元 都 能 指向 一 个 独立 的 第 
二 级 列表 。 通 过 运用 Python 列表 推导 式 语 法 能 够 实现 实例 化 。 


data = [ [0] * c for j in range(r) ] 


该 语句 产生 了 一 个 有 效 配置 ， 如 图 5-24 所 示 。 使 用 列表 推导 式 语法 ， 表 达 式 [0] *c 在 
循环 的 每 次 执行 中 都 会 重新 评估 。 因 此 ， 我 们 得 到 的 不 同 的 第 二 级 列表 ， 这 正 是 我 们 想 要 
的 。( 我 们 注意 到 语句 中 的 变量 7 是 不 相关 的 ， 仅 仅 需要 将 循环 迷 代 次 。) 


二 维 数组 和 位 置 型 游戏 


许多 计算 机 游戏 ， 例 如 策略 游戏 、 模 拟 游 戏 或 第 一 人 称 战 斗 游 戏 ， 都 是 将 对 象 放置 于 二 
维 空间 中 。 开 发 这 类 位 置 型 游戏 需要 一 种 能 表示 二 维 “ 边 界 ” 的 方法 ， 在 Python 中 ， 很 自 
然 就 会 选择 列表 的 列表 。 

三 连 棋 游戏 

大 多 数学 生 都 知道 ， 三 连 棋 是 在 3 x 3 的 方 格 里 玩 的 游戏 。 两 个 玩家 一 一 X 和 0 一 一 从 
X 开始 ， 轮 流 将 他 们 各 自 的 标志 符号 放 和 人 方 格 的 某 单元 内 。 假 如 其 中 的 任 一 玩家 将 已 方 符号 


的 任意 3 个 连 成 一 行 、 一 列 或 者 成 对 角 线 ， 则 该 玩家 胜出 。 

这 显然 不 是 一 个 复杂 的 位 置 型 游戏 ， 甚 至 都 没 太 大 意思 ， 因 为 一 个 不 错 的 玩家 0 总 能 
打 成 平局 。 三 连 棋 游戏 的 可 取 之 处 在 于 该 游戏 能 作为 一 个 不 错 的 简单 例子 来 展示 二 维 数组 是 
如 何 运 用 于 位 置 型 游戏 的 。 开 发 更 复杂 的 位 置 型 游戏 ， 例 如 西洋 棋 、 国 际 象棋 或 者 流行 的 模 
拟 游戏 都 是 基于 相同 的 方法 ， 即 此 处 论述 的 为 三 连 棋 游戏 使 用 二 维 数组 。 

3 x3 方 格 的 代表 是 字符 型 列表 的 列表 ，'x' 或 '0' 表明 玩家 的 走 法 ，" 表 
示 空 位 置 。 例 如 ， 方 格 样 例 为 

内 部 存储 为 

Lie et OD a RS lh a] 

我 们 编写 了 一 个 完整 的 Python 类 ， 是 有 两 个 玩家 的 三 连 棋 方 格 。 该 类 追踪 了 玩家 走 法 
并 且 宣布 赢家 ， 但 它 并 不 执行 任何 策略 或 允许 其 他 人 和 计算 机 对 弈 三 连 棋 。 该 程序 细节 虽 超 
出 了 本 章 范围 ， 但 仍 不 失 为 一 个 好 的 课题 项 目 ( 见 练习 P-8.68 )。 

给 出 该 类 的 实现 方法 前 ， 在 代码 段 5-12 中 ， 我 们 使 用 一 个 简单 的 测试 来 展示 它 的 公开 
接口 。 


O|X|O 


Oo |x 
x 


RER 5-12 ”对 三 连 棋 类 的 一 个 简单 测试 


game = TicTacToe() 
# X moves: # O moves: 


1 

2 

3 game.mark(1, 1); game.mark(0, 2) 
4 game.mark(2, 2); game.mark(0, 0) 
5 game.mark(0, 1); game.mark(2, 1) 
6 game.mark(1, 2); game.mark(1, 0) 
7 game.mark(2, 0) 

8 


9 print(game) 
10 winner = game.winner( ) 
ll if winner is None: 


12 print('Tie') 
13 else: 
14 print(winner, 'wins') 


该 类 的 基本 操作 为 : 一 个 新 的 游戏 实例 表示 一 个 空 的 方 格 ，mark(i, j) 方法 为 当前 玩家 
在 指定 的 位 置 写 人 标号 (用 软件 掌控 轮流 次 序 )， 该 游戏 方 格 能 被 打印 并 且 由 胜利 者 决定 。 
代码 段 5-13 给 出 了 三 连 棋 类 的 完整 代码 。mark 方法 执行 错误 检测 以 确保 输入 索引 合法 、 位 
置 没有 被 占用 ， 并 且 当 玩家 已 赢得 比赛 后 ， 双 方 都 不 可 再 有 进一步 的 动作 。 


代码 段 5-13 ”管理 三 连 棋 游戏 的 完整 Python 类 


class TicTacToe: 
""" Management of a Tic- Tac- Toe game (does not do strategy). " " 


1 

2 

3 

4 def .init.. (self): 
5 """Start a new game.""" 

6 self. board = [ [' '] * 3 for j in range(3) ] 

7 self. player = 'X' 

9 def mark(self, i, j): 

0 """Put an X or O mark at position (i,j) for next player's turn." " " 
11 if not (0 <= i <= 2 and 0 <= j <= 2): 


12 raise ValueError(' Temas board position') 
13 if self. board[i][j] != ' 

14 raise ValueError(' Board position occupied') 
15 if self. winner( ) is not None: 


16 raise ValueError('Game is already complete') 


5.7 
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self._board[i][j] = self._player 
if self. player == 'X': 
self. player = '0' 
else: 
self. player — 'X' 
def _is_win(self, mark): 
""" Check whether the board configuration is a win for the given player." "" 
board — self. board # local variable for shorthand 
return (mark == board[0][0] == board[0][1] == board[0][2] or # row 0 
mark == board[1][0] == board[1][1] == board[1][2] or # row 1 
mark == board[2][0] == board[2][1] == board[2][2] or  # row 2 
mark == board[0][0] == board[1][0] == board[2][0] or # column 0 
mark == board[0][1] == board[1][1] == board[2][1] or # column 1 
mark == board[0][2] == board[1][2] == board[2][2] or # column 2 
mark == board[0][0] == board[1][1] == board[2][2] or # diagonal 
mark == board[0][2] == board[1][1] == board[2][0]) # rev diag 
def winner(self): 
"""Return mark of winning player, or None to indicate a tie," "" 
for mark in 'X0': 
if self. is. win(mark): 
return mark 
return None 
def __str__ (self): 
"""Return string representation of current game board." " " 
rows = ['| ' .join(self. board[r]) for r in range(3)] 
return '\n-----\n' join(rows) 
练习 


请 访问 www.wiley.com/college/goodrich 以 获得 练习 帮助 。 


巩固 
R-5.1 
R-5.2 


完成 代码 段 5-1 所 示 的 实验 ， 将 运行 的 结果 与 在 代码 段 5-2 得 出 的 结果 进行 比较 。 

在 代码 段 5-1 中 ， 我 们 通过 实验 将 Python 列表 的 长 度 与 其 底层 内 存 占用 情况 做 了 比较 ， 决 定数 
组 大 小 的 顺序 需要 人 工 检查 程序 的 输出 。 重 新 设计 实验 ， 当 目前 存储 被 耗 尽 时 ， 程 序 仅 输出 人 
值 。 例如， 在 和 代码 段 5-2 结果 保持 一 致 的 数组 中 ， 你 的 程序 应 该 输出 数组 大 小 的 序列 为 0, 4， 
8, 16, 25, = 

修改 代码 段 5-1 所 示 的 实验 ,证 明 当 元 素 从 Python 列表 中 被 取出 时 ， 列 表 偶 尔 会 收缩 底层 数组 
大 小 。 

在 代码 段 5-3 给 出 的 DynamicArray 类 中 ，_ getitem ”方法 不 支持 索引 为 负 。 更 新 该 方法 ， 使 
其 更 符合 Python 列表 语义 。 

重新 证 明 命题 5-1， 假 设 数组 大 小 从 大 扩大 到 2 需要 35 个 网 络 硬币 ， 则 在 摊 销 工作 中 ， 每 次 
增添 操作 应 收费 多 少 ? 

在 代码 段 5-5 中 实现 了 DynamicArray 类 的 insert 方法 ， 但 效率 较 低 。 当 改变 数组 大 小 时 ， 改 
变 操作 需要 花费 时 间 把 所 有 元 素 从 旧 数组 复制 到 新 数组 ， 在 随后 的 插 和 人 操作 过 程 中 ， 需 要 循环 
移动 其 中 许多 元 素 。 对 insert 方法 进行 改进 ， 使 得 在 改变 数组 大 小 时 ， 插 和 人 操作 能 将 所 有 元 素 
直接 移动 到 其 最 终 位 置 ， 以 免 循环 移动 。 

设 4 为数 组， 其 大 小 n 二 2， 包含 1 ~ n -1 的 整数 ， 其 中 恰 有 一 个 整数 重复 。 描 述 一 种 快速 
算法 ， 找 到 4 中 这 个 重复 的 整数 。 

对 于 Python 的 list 类 的 pop 方法 ， 当 使 用 可 变 索 引 作 为 参数 时 (与 我 们 在 5.4 节 中 对 insert 方 
法 所 采用 的 做 法 类 似 )， 利 用 实验 ， 评 估 其 效率 。 给 出 类 似 于 表 5-5 的 结果 。 
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R-5.11 


R-5.12 


创新 
C-5.13 


C-5.14 


C-5.15 


C-5.16 


C-5.17 


C-5.18 


C-5.19 


C-5.20 


C-5.21 


C-5.22 


C-5.23 


C-5.24 


C-5.25 


RSF 


解释 在 代码 段 5-11 中 本 应 该 得 出 的 改变 ， 以 至 于 能 为 情报 执行 凯撒 密码 ， 这 些 情报 使 用 基于 
字符 表 的 除 英 语 之 外 的 语言 编写 ， 比 如 希腊 语 、 俄 语 或 者 希 伯 来 语 。 

在 代码 段 5-11 中 ，CaesarCipher 类 的 构造 函数 能 够 使 用 两 行 主要 部 分 实现 ， 这 两 行 部 分 即 通 
过 把 join 方法 和 适当 的 理解 语法 结合 使 用 ， 构 造 的 加 密 前 和 加 密 后 的 字符 串 。 请 给 出 这 样 的 
一 种 实现 。 

使 用 标准 控制 结构 计算 n x n 数据 集中 所 有 编号 的 和 ， 该 数据 集 用 列表 的 列表 来 表示 。 

描述 python 内 置 的 sum 函数 如 何 与 理解 语法 相 结 合 来 计算 nx n 数据 集中 所 有 编号 的 和 ， 该 
数据 集 用 列表 的 列表 来 表示 。 


在 代码 段 5-1 中 ， 我 们 是 以 空 列表 开始 的 。 假 如 在 开始 时 ，data 以 非 空 长 度 被 初始 化 ， 当 底层 
数组 扩大 时 ， 会 影响 值 的 序列 吗 ? 自己 做 实验 ， 对 你 看 到 的 有 关 初 始 长 度 和 扩大 序列 间 的 任 
意 关 系 给 出 评论 。 

使 用 random 模块 提供 的 shuffle 方法 ， 对 一 张 python 列表 重新 排序 ， 使 得 每 种 可 能 的 顺序 出 
现 的 概率 相等 。 请 实现 这 样 的 函数 ， 可 以 使 用 random 模块 提供 的 randrange(n) 函数 ， 该 函数 
返回 0 一 2- 1 的 随机 数字 。 

思考 动态 数组 的 一 种 实现 方法 ， 当 数组 大 小 已 满 时 ， 不 是 将 元 素 复 制 到 扩大 1 倍 的 数组 中 
(Bl, N — 2N), ， 而 是 复制 到 扩大 [ N/A | 倍 的 数组 中 ,数组 大 小 从 NW 变 为 N+『N/41。 证明: 
在 这 种 情况 下 ， 连 续 执 行 n 次 append 操作 的 运行 时 间 仍 为 O(n)。 

对 代码 段 5-3 给 出 的 DynamicArray 类 ， 实 现 其 pop 方法 ， 删 除数 组 的 最 后 一 个 元 素 ， 每 当 元 
素 个 数 小 于 NIA 时 ， 将 数组 大 小 缩小 为 原来 的 一 半 ON 为 数组 大 小 )。 

正如 前 面 的 练习 ， 当 动态 数组 增 大 或 缩小 时 ,证 明 下 述 的 连续 2n 次 操作 的 运行 时 间 为 O(n) : 
在 初始 为 空 的 数组 上 执行 n 次 append 操作 ， 随 后 执行 n 次 pop 操作 。 

给 出 形式 证 明 : 假如 使 用 C-5.16 描述 的 方法 ， 对 初始 为 空 的 动态 数组 连续 执行 n 次 append 或 
pop 操作 ， 其 运行 时 间 为 O(n)。 

考虑 C-5.16 的 一 种 变化 形式 ， 对 于 大 小 为 的 数组 ， 每 次 当 其 元 素 个 数 严格 小 于 N/A 时 ， 调 
整数 组 大 小 精确 为 元 素 的 个 数 。 给 出 形式 证 明 : 对 初始 为 空 的 动态 数组 执行 任意 的 连续 次 
append 或 pop 操作 ， 其 运行 时 间 为 0(n)。 

考虑 C-5.16 的 一 种 变化 形式 ， 对 于 大 小 为 NN 的 数组 ， 每 次 当 其 元 素 个 数 严格 小 于 N/2 时 ， 调 
整数 组 大 小 精确 为 元 素 的 个 数 。 证 明 存 在 一 个 连续 n 次 操作 ， 其 运行 时 间 为 Q2(n? )。 

在 5.4.2 节 中 ， 我 们 给 出 4 种 不 同 的 方法 组 成 长 字符 串 : 重复 连接 ; @@ 增 加 一 张 临时 列表 ， 
之 后 合并 到 该 临时 列表 中 ; GEH join 的 列表 推导 式 ; 图 使 用 join 的 生成 器 理解 法 。 做 实验 
测试 这 4 种 方法 的 效率 ， 给 出 你 的 发 现 。 

做 实验 比较 Python 的 list 类 extend 方法 与 重复 调用 append 方法 在 完成 等 量 任务 时 的 相对 效率 。 
在 5.4 节 “ 构 造 新 列表 ”的 讨论 基础 上 ， 做 实验 比较 Python 的 列表 推导 式 与 重复 调用 append 
方法 构造 列表 之 间 的 相对 效率 。 

做 实验 评估 Python 的 list 类 remove 方法 的 效率 ， 正 如 我 们 在 5.4 节 中 对 insert 方法 所 做 的 那 
样 。 使 用 已 知 值 使 得 每 次 删除 操作 要 么 出 现在 列表 开头 或 中 间 ， 要 么 出 现在 尾部 。 给 出 类 似 
于 表 5-5 的 结果 。 

语句 data.remove(value) 仅仅 删除 Python 的 data 列表 中 第 一 次 出 现 的 值 为 value WICH. X 
现 remove all(data, value) 函数 ， 使 其 能 够 在 给 出 的 列表 中 删除 所 有 值 为 value 的 元 素 ， 对 拥 


C-5.26 


C-5.27 


C-5.28 
C-5.29 


C-5.30 


C-5.31 
项 目 
P-5.32 
P-5.33 


P-5.34 


P-5.35 


P-5.36 
P-5.37 
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有 nn 个 元 素 的 列表 ,该 函数 的 最 坏 运 行 时间 为 O(n)。 注 意 ， 并 不 是 说 重复 调用 remove 方法 不 
够 高 效 。 

设 B 为 数组 ， 其 大 小 n 二 6, 包含 1 ~~n 一 5 的 整数 , 恰 有 5 个 重复 元 素 。 给 出 一 个 不 错 的 算 
ik, FEI B 中 这 5 个 重复 的 整数 。 

给 出 Python 的 列表， 该 列表 包含 个 正 整数 ， 每 个 正 整 数 用 k — [log n |+ 1 位 表示 ， 给 出 
一 种 运行 时 间 为 O(n) 的 方法 ， 该 方法 发 现 大 位 的 整数 不 在 工 中 。 

Wie: 对 于 上 一 个 问题 的 每 种 解决 方案 ， 为 什么 运行 时 间 一 定 为 (2(D)。 

在 数据 库 中 ， 一 个 实用 的 操作 为 自然 连接 (natural join)。 假 如 把 数据 库 看 作 一 张 列 表 ， 该 列 
表 拥 有 许多 有 序 的 成 对 对 象 ， 比 如 (x, y). 属于 数据 库 A, (y, 3 属于 数据 库 B, WI A 和 B 的 自 
然 连接 即 为 所 有 有 序 三 元 组 (x, y, z) 所 组 成 的 列表 。 描 述 和 分 析 一 种 高 效 算法 ， 该 算法 能 对 
包含 n 对 对 象 的 列表 4 和 包含 m 对 对 象 的 列表 B 做 自然 连接 。 

当 Bob 想 要 通过 互联 网 给 Alice 发 送 一 则 消息 人 MM 时 ， 他 把 MM 分 解 成 n 个 数据 包 (data 
packet)， 并 按 顺 序 给 这 些 包 编号 ， 然 后 将 它们 发 送 到 网 络 中 。 当 数据 包 到 达 Alice 的 计算 机 
时 ， 可 能 已 处 于 无 序 状态 ， 因 此 ， 在 确定 自己 已 获得 整个 消息 前 ，Alice 必须 对 n 个 包 按 序 重 
组 。 假 设 Alice 已 知道 n 的 值 ， 为 她 描述 一 种 有 效 方案 去 做 这 件 事 。 这 种 算法 的 运行 时 间 是 
多 少 ? 

给 出 一 种 方法 ， 在 nxn 数据 集中 ,使 用 递归 增加 所 有 数 ， 该 数据 集 以 列表 的 列表 形式 来 表示 。 


使 用 Python 编写 一 个 函数 ， 该 函数 给 出 2 个 三 维 数值 型 数据 集 ， 并 以 离散 方式 将 它们 相 加 。 
使 用 Python 为 矩阵 类 编写 一 个 程序 ， 该 程序 能 够 增加 和 乘 以 二 维 数 值 型 数组 ， 假 设 维 数 适应 
于 此 操作 。 

为 英语 情报 执行 凯撒 加 密 法 编写 程序 ， 其 中 包括 大 小 写字 符 。 

实现 SubstitutionCipher 类 ， 该 类 的 构造 函数 包含 一 个 由 26 个 大 写字 母 以 任意 顺序 组 成 的 字 
符 串 ， 该 字符 串 用 于 映射 加 密 前 字符 串 (类 似 于 在 代码 段 5-11 中 CaesarCipher 类 的 self._ 
forward 字符 串 )。 应 能 由 加 密 前 的 字符 串 得 到 加 密 后 的 字符 串 。 

重新 设计 CaesarCipher 类 ， 并 把 它 作 为 上 个 问题 中 SubstitutionCipher 类 的 一 个 子 类 。 

设计 RandomCipher 类 ， 并 把 它 作为 P-5.35 中 SubstitutionCipher 类 的 一 个 子 类 ， 使 得 该 类 的 
每 个 实例 拥有 为 其 映射 的 随机 排列 的 字符 串 。 


扩展 阅读 
数组 的 基本 数据 结构 属于 计算 机 科学 中 的 民间 学 说 ，Knuth 的 重要 著作 《基本 算法 》 中 首次 将 它 
们 写 人 了 计算 机 科学 文献 。 
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Data Structures and Algorithms in Python 


栈 、 队 列 和 双 端 队列 





6.1 1X 


栈 是 由 一 系列 对 象 组 成 的 一 个 集合 ， 这 些 对 象 的 插入 和 删除 操作 遵循 后 进 先 出 
(LIFO) 的 原则 。 用 户 可 以 在 任何 时 刻 向 栈 中 插入 一 个 对 象 , 但 只 能 取得 或 者 删除 最 后 一 
个 插入 的 对 象 ( 即 所 谓 的 “ 栈 顶 ” )。“ 栈 ”这 
个 名 字 来 源 于 自动 售 货 机 中 用 弹簧 项 住 的 一 堆 
盘子 的 隐喻 。 在 这 种 情况 下 ， 其 基本 的 操作 只 
涉及 向 这 个 栈 中 取 盘 子 或 者 放 盘 子 。 当 需要 从 
这 个 自动 售 货 机 中 取 一 个 新 盘子 时 ， 我 们 
“ 取 ” 出 这 个 栈 顶 的 盘子 。 当 需要 向 其 中 添加 
一 个 盘子 的 时 候 ， RIKET “SE” ARM, 
使 其 成 为 新 的 栈 顶 。 或 许 一 个 更 加 有 趣 的 例子 
是 PEZ 糖果 售卖 器 ， 当 售卖 器 的 顶部 打开 时 ， 
它 将 存储 在 容器 里 面 的 糖果 从 项 部 逐个 弹出 ， 
如 图 6-1 所 示 。 栈 是 一 个 基本 的 数据 结构 。 很 图 6-1 一 个 PEZ 糖果 售卖 器 的 示意 图 ; 一 个 
的 示例 。 注册 商标 ) 

例题 6-1 : 网 络 浏览 器 将 最 近 浏 览 的 网 址 
存放 在 一 个 栈 中 。 每 次 当 访问 者 访问 一 个 新 网 站 时 ， 这 个 新 网 站 的 网 址 就 被 压 入 栈 项 。 这 
样 ， 浏 览 器 就 可 以 在 用 户 单 击 “ 后 退 ” 按 钮 时 ， 弹 出 先前 访问 的 网 址 ， 以 回 到 其 先前 访问 的 
网 页 





例题 6-2 : 文本 编辑 器 通常 提供 一 个 “撤销 ”机 制 以 取消 最 近 的 编辑 操作 并 返回 到 先前 
的 文本 状态 。 这 个 撤销 操作 就 是 通过 将 文本 的 变化 状态 保存 在 一 个 栈 中 得 以 实现 的 


6.1.1 栈 的 抽象 数据 类 型 


栈 是 最 简单 的 数据 结构 ， 但 它 同 样 也 是 最 重要 的 数据 结构 。 它 们 被 用 在 一 系列 不 同 的 应 
用 中 ,并 且 在 许多 更 加 复杂 的 数据 结构 和 算法 中 充当 工具 。 从 形式 上 而 言 ， 栈 是 一 种 支持 以 
下 两 种 操作 的 抽象 数据 类 型 (ADT)， 用 $ 表示 这 一 ADT 实例 : 

e S.push(e): 将 一 个 元 素 e 添加 到 栈 S 的 栈 顶 。 

e S.pop(e): MER S 中 移 除 并 且 返 回 栈 顶 的 元 素 ， 如 果 此 时 栈 是 空 的 ， 这 个 操作 将 出 错 。 

此 外 ， 为 了 方便 ， 我 们 定义 了 以 下 访问 方法 : 

e S.top(): 在 不 移 除 栈 顶 元 素 的 前 提 下 ， 返 回 一 个 栈 S 的 栈 顶 元 素 ; 若 栈 为 空 ， 这 个 操 

作 会 出 错 。 
e Sis empty(): 如 果 栈 中 不 包含 任何 元 素 ， 则 返回 一 个 布尔 值 “ True”。 
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e len(S): 返回 栈 S 中 元 素 的 数量 ; 在 Python H, RMA ”len _ 这 个 特殊 的 方法 实现 它 。 

按照 惯例 ， 我 们 假定 一 个 新 创建 的 栈 是 空 的， 并 且 其 容量 也 没有 预先 的 限制 。 添 加 进 栈 
的 元 素 可 以 是 任何 类 型 的 。 

例题 6-3: 下 表 展 示 了 在 一 个 初始 化 为 整数 类 型 的 空 栈 $ 中 进行 一 系列 操作 的 结果 。 





HR dE 栈 的 内 容 
S.push(5) [5] 
S.push(3) [5. 3] 
len(S) [5. 3] 
S.pop() [5] 

S.is empty() [5] 
S.pop() 0 
S.is empty() [] 
S.pop() g 
S.push(7) [7] 
S.push(9) [7, 9] 
S.top() [7, 9] 
S.push(4) [7, 9, 4] 
len(S) [7, 9, 4] 
S.pop() [7, 9] 
S.push(6) [7, 9, 6] 
S.push(8) [7, 9, 6, 8] 
S.pop() [7, 9, 6] 


6.1.2 简单 的 基于 数组 的 栈 实 现 


我 们 可 以 简单 地 通过 在 Python 列表 中 存储 一 些 元 素来 实现 一 个 栈 。list 类 已 支持 append 
方法 ， 用 于 添加 一 个 元 素 到 列表 尾部 ， 并 且 支 
持 pop 方法， 用 于 移 除 列表 中 最 后 的 元 素 ， 所 
以 我 们 可 以 很 自然 地 将 一 个 列表 的 尾部 与 一 个 
栈 的 顶部 相对 应 起 来 ， 如 图 6-2 所 示 。 

虽然 程序 员 可 以 直接 用 1list 类 代替 一 个 正 
式 的 stack 类， 但 是 列表 还 包括 一 些 不 符合 这 种 抽象 数据 类 型 的 方法 (比如: 增加 或 者 移 除 
处 于 列表 任何 位 置 的 元 素 )。 同 时 ，list 类 所 使 用 的 术语 也 不 能 与 栈 这 种 抽象 数据 类 型 的 传统 
命名 方法 精确 对 应 ， 特 别 是 append 方法 和 push 方法 之 间 的 区 别 。 相 反 ， 我 们 将 强调 如 何 使 
用 一 个 列表 实现 栈 元 素 的 内 部 存储 ， 并 同时 提供 一 个 符合 堆栈 的 公共 接口 。 

适配器 模式 

适配器 设计 模式 适用 于 任何 上 下 文 ， 从 而 使 我 们 可 以 有 效 地 修改 一 个 现 有 的 类 ， 以 使 
它 的 方法 能 够 与 那些 与 其 相关 但 又 不 同 的 类 或 接口 相 匹 配 。 一 个 应 用 这 种 适配器 模式 的 通用 
方法 是 以 这 样 一 种 方式 定义 一 个 新 类 ， 这 种 方式 以 包含 一 个 现存 类 的 实例 作为 隐藏 域 ， 然 后 
用 这 个 隐藏 实例 变量 的 方法 实现 这 个 新 类 的 方法 。 以 这 种 方式 应 用 适配器 模式 ， 我 们 已 经 创 
建 了 一 个 新 类 ， 它 可 以 执行 一 些 与 现 有 类 相同 的 函数 功能 ， 却 以 一 种 更 加 方便 的 方式 重新 封 
装 。 对 于 栈 这 种 抽象 数据 类 型 结构 ,我们 可 以 通过 改编 Python 的 list 类 中 相应 的 内 容 来 实 
现 ， 见 表 6-1。 





图 6-2 通过 Python 列表 实现 一 个 栈 ， 将 其 项 
部 元 素 存 储 在 最 右 侧 的 单元 中 
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表 6-1 通过 改编 一 个 Python 列表 上 L 实现 一 个 栈 S 


栈 方 法 用 Python 列表 实现 
S.push(e) L.append(e) 
S.pop() L.pop() 

S.top() L[- 1] 
S.is empty() len(L)==0 
len(S) len(L) 





FA Python 的 list 类 实现 一 个 栈 

我 们 用 适配器 设计 模式 定义 了 一 个 ArrayStack 类 ， 并 且 使 用 一 个 基本 的 Python 列表 进 
行 存储 (之 所 以 选择 这 个 ArrayStack 名 字 ， 是 为 了 强调 底层 的 存储 是 基于 数组 的 )。 现 在 还 
有 一 个 问题 ， 那 就 是 当 这 个 栈 是 空 的 时 候 ， 如 果 一 个 用 户 调用 pop 或 者 top 方法 时 ， 代 码 应 
该 怎样 处 理 。ADT 给 出 的 建议 是 触发 一 个 错误 ， 但 是 必须 要 决定 这 是 一 个 什么 类 型 的 错误 。 
当 在 一 个 空 的 Python 列表 中 调用 pop 方法 时 ， 正 常情 况 下 会 触发 一 个 IndexError (请 求 的 索 
引 超出 序列 范围 )， 因 为 列表 是 基于 索引 的 序列 。 对 于 栈 而 言 ， 这 个 选择 似乎 并 不 恰当 ， 因 
为 这 里 并 没有 假定 的 索引 。 其 实 ， 定 义 一 个 新 的 异常 类 更 为 恰当 。 代 码 段 6-1 定义 了 这 样 一 
个 Empty 类 作为 Python Exception 类 的 一 个 小 的 子 类 。 


代码 段 6-1 Empty 异常 类 的 定义 
class Empty(Exception): 
""" Error attempting to access an element from an empty container." "" 
pass 


我 们 在 代码 段 6-2 中 给 出 了 ArrayStack ŽW ERREX, EAA, Alt eid PRÉC 
建立 self. data 数据 成 员 作为 一 个 初始 化 的 空 Python 列表 。 余 下 的 公共 栈 方法 将 根据 表 6-1 
中 对 应 的 方法 实现 。 


使 用 实例 

下 面 展 示 了 ArrayStack 类 的 一 个 使 用 实例 ， 映 射 了 例题 6-3 一 开始 列 出 的 操作 。 
S — ArrayStack( ) # contents: [ ] 

S.push(5) # contents: [5] 

S.push(3) # contents: [5, 3] 

print(len(S)) # contents: [5, 3]; outputs 2 
print(S.pop( )) # contents: [5]; outputs 3 
print(S.is_empty( )) # contents: [5]; outputs False 
print(S.pop()) # contents: [ ]; outputs 5 
print(S.is empty()) # contents: [ |; outputs True 
S.push(7) # contents: [7] 

S.push(9) # contents: [7, 9] 

print(S.top( )) # contents: [7, 9]; outputs 9 
S.push(4) # contents: [7, 9, 4] 

print(len(S)) # contents: [7, 9, 4]; outputs 3 
print(S.pop()) # contents: [7, 9]; outputs 4 
S.push(6) # contents: [7, 9, 6] 


代码 段 6-2 ”用 Python 列表 作为 存储 实现 一 个 栈 


class ArrayStack: 
"""LIFO Stack implementation using a Python list as underlying storage." " " 


a e w N = 


def __init__(self): 
""" Create an empty stack.”"”" 
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6 self. data — [] # nonpublic list instance 
7 

8 def len. (self): 

9 """ Return the number of elements in the stack." "" 


10 return len(self. data) 


12 def is. empty(self): 
13 """ Return True if the stack is empty." " " 
14 return len(self. data) == 0 


l6 def push(self, e): 
17 """ Add element e to the top of the stack." "" 


I8 self. data.append(e) # new item stored at end of list 


20 def top(self): 


21 "=" Return (but do not remove) the element at the top of the stack. 

y 

23 Raise Empty exception if the stack is empty. 

24 ne 

25 if self.is empty(): 

26 raise Empty('Stack is empty') 

37 return self. data[—1] # the last item in the list 
28 

29 def pop(self): 

30 """ Remove and return the element from the top of the stack (i.e., LIFO). 
3l 

32 Raise Empty exception if the stack is empty. 

33 M: 

34 if self.is empty(): 

35 raise Empty('Stack is empty') 

36 return self. data.pop( ) # remove last item from list 
分 析 基 于 数组 的 栈 的 实现 


K 6-2 展示 了 ArrayStack 方法 的 运行 时 间 。 这 个 分 析 直 接 与 5.3 节 给 出 的 list 类 的 分 
析 相 对 应 。 在 最 坏 的 情况 下 ，top 、is_empty 和 len 方法 均 在 常量 时 间 内 完成 。 对 于 push 和 
pop 操作 的 时 间 复 杂 度 为 0(1)， 指 的 是 均 摊 计算 的 边界 (参见 5.3.2 35) ; 对 于 这 些 方法 中 任 
何 一 个 典型 的 调用 都 仅 需 要 常量 的 时 间 ， 但 是 当 一 个 操作 导致 了 列表 重新 调整 其 内 部 数组 的 
大 小 时 ， 偶 尔 在 最 坏 的 情况 下 也 会 要 On) 的 时 间 开 销 ， 其 中 是 当前 栈 中 元 素 的 个 数 。 对 
于 栈 的 空间 利用 率 是 O(n)。 


表 6-2 基于 数组 实现 的 栈 的 性 能 。 由 于 list 类 的 范围 相似 ，push 和 pop 操作 的 时 间 是 
摊 销 的 。 空 间 利用 率 是 O(n)， 其 中 n 是 当前 栈 中 元 素 的 个 数 


操作 运行 时 间 

S.push(e) O(1)* 
S.pop() oa) 
S.top() O(1) 
S.is empty() O(1) 
len(S) O(1) 

* PEAH a 

避免 由 于 预 留 空间 所 导致 的 摊 销 


在 某 些 情况 下 ,会 有 额外 的 知识 表明 一 个 栈 将 会 达到 最 大 的 尺寸 。 从 代码 段 6-2 看 ， 
ArrayStack 的 实现 开始 于 一 个 空 的 列表 并 且 随 着 需要 对 它 进 行 扩展 。 根 据 5.4.1 节 对 列表 的 
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分 析 ， 我 们 相信 ， 在 实际 中 构造 一 个 最 初 长 度 为 n 的 列表 要 比 一 开始 就 从 一 个 空 的 列表 开始 
逐步 添加 n 项 更 加 有 效 ( 即 使 两 种 方法 均 能 在 O(n) 时 间 内 运行 完毕 )。 

作为 一 个 栈 的 替代 模型 ,我们 可 能 希望 构造 聘 数 接受 一 个 用 于 指定 一 个 堆栈 的 最 大 容 
量 的 参数 并 且 初 始 化 数据 成 员 列 表 的 长 度 。 实 现 这 样 一 个 模型 需要 对 代码 段 6-2 做 出 大 量 改 
写 。 栈 的 长 度 将 不 再 是 列表 的 长 度 的 同义词 ， 并 且 对 栈 的 push 和 pop 操作 也 不 再 需要 改变 
列表 的 长 度 。 相 反 ， 我 们 建议 单独 维护 一 个 整数 作为 实例 变量 以 表示 当前 栈 中 元 素 的 个 数 。 
这 个 实现 过 程 的 细节 在 课 后 练习 C-6.17 中 展开 讨论 。 


6.1.3 ”使 用 栈 实现 数据 的 逆 置 


HF LIFO 协议 ， 栈 可 以 用 作 一 种 通用 的 工具 ， 用 于 实现 一 个 数据 序列 的 逆 置 。 例 如 ， 
如 果 值 1、2、3 被 顺序 压 入 一 个 栈 中 ， 它 们 将 会 以 3、2、1 的 顺序 被 逐个 弹出 。 

这 一 思想 可 以 被 应 用 在 各 种 设置 中 。 例 如 ， 我 们 希望 逆序 打印 一 个 文件 的 各 行 ， 目 的 是 
以 降序 (而 非 升序 ) 的 方式 显示 一 个 数据 集 。 我 们 可 以 通过 先 逐 行 读 出 数据 ， 然 后 压 人 一 个 
栈 中 ， 再 按照 从 栈 中 弹出 的 顺序 来 写 人 。 这 个 方法 的 实现 过 程 在 代码 段 6-3 中 给 出 。 


代码 段 6-3 ”一 个 实现 一 个 文件 中 各 行 的 逆 置 函数 


| def reverse file(filename): 

2  """Overwrite given file with its contents line-by-line reversed." "" 

3 S = ArrayStack() 

4 original — open(filename) 

5 for line in original: 

6 S.push(line.rstrip( ' Nn' )) # we will re-insert newlines when writing 
7 original.close( ) 

8 


9 # now we overwrite with contents in LIFO order 

10 output = open(filename, 'w') # reopening file overwrites original 
11 while not S.is empty(): 

12 output.write(S.pop( ) 十 '\n') # re-insert newline characters 

13  output.close( ) 


一 个 值得 注意 的 技术 细节 是 我 们 在 读 取 时 故意 将 行 中 的 换行 符 去 掉 ， 然 后 在 写 人 结果 文 
件 时 重新 在 每 一 行 中 插入 换行 符 。 之 所 以 这 样 做 ， 是 为 了 处 理 一 种 特殊 的 情况 ， 这 种 特殊 情 
况 是 在 原始 文件 的 最 后 一 行 并 没有 换行 符 。 如 果 我 们 只 是 完全 道 置地 输出 从 文件 中 读 取 的 每 
一 行 ， 那 么 这 个 原始 文件 的 最 后 一 行 后 面 将 紧 跟 着 倒数 第 二 行 而 没有 新 的 换行 符 。 我 们 的 实 
现 方法 确保 了 结果 中 有 分 离 换行 符 。 

使 用 一 个 栈 来 实现 数据 集 的 逆 置 的 思想 也 可 以 应 用 在 其 他 类 型 的 序列 。 例 如 ， 练 习 
R-6.5 就 尝试 使 用 栈 来 实现 Python 列表 内 容 逆 置 的 另 一 个 解决 方案 (4.4.1 节 中 讨论 了 一 个 
递归 的 解决 方 案 )。 一 个 更 具有 挑战 性 的 任务 是 如 何 将 存储 在 一 个 栈 中 的 元 素 逆 置 。 如 果 将 
它们 从 一 个 栈 移 到 另 一 个 栈 中 ， 那么 它们 将 会 被 逆 置 ,但 是 如 果 再 次 将 它们 放 回 原来 的 栈 ， 
那么 它们 将 会 再 次 被 逆 置 ， 即 又 回 到 了 最 初 的 顺序 。 练 习 C-6.18 对 这 个 任务 的 解决 方案 进 
行 了 探索 。 

6.1.4 括号 和 HTML 标记 匹配 


在 本 节 中 ， 我 们 将 探索 两 个 栈 的 相关 应 用 ， 这 两 个 应 用 都 涉及 对 一 串 匹 配 分 隔 符 的 测 
试 。 在 第 一 个 应 用 中 ,我 们 设想 算数 表达 式 可 能 包含 几 组 不 同 的 成 对 符号 ， 如 : 
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e 小 括号 : Al ")" 

e 大 插 号 :“{” 和 “}” 

e 中 括号 :“[” 和 “]” 

每 个 开始 符号 必须 与 其 相对 应 的 结束 符号 相 匹配 ， 例 如 ， 一 个 左 中 括号 “[” 必 须 与 一 
个 相对 应 的 右 中 括号 ”] ” 相 匹 配 ， 如 表达 式 [(5 + x) -= (y+ z)]。 下 面 的 例子 进一步 诠释 了 这 
一 内 容 : 

e 正确 : OOOD} 

e 正确 : ((0(O){(COD}) 

e 错误 : )(O){(O])} 

e 错误 : (UD) 

e 错误 : ( 

我 们 在 练习 R-6.6 给 出 了 一 组 括号 匹配 的 精确 定义 。 

分 隔 符 的 匹配 算法 

在 处 理 算术 运算 表达 式 时 的 一 个 重要 任务 是 确保 表达 式 中 的 分 隔 符 匹 配 正 确 。 代 码 段 6-4 
给 出 了 一 个 用 Python 实现 这 一 功能 的 算法 。 


代码 段 6-4 ”在 算数 表达 式 中 分 隔 符 匹配 算法 的 函数 实现 


l def i is. matched(expr): 

2 "Return True if all delimiters are properly match; False otherwise." "" 

3 lefty  '(t' # opening delimiters 

4  righty = '))]' # respective closing delims 
S = ArrayStack( ) 

6 for c in expr: 

7 if c in lefty: 

8 


t S.push(c) # push left delimiter on stack 
9 elif c in righty: 

10 if S.is empty(): 

11 return False # nothing to match with 

12 if righty.index(c) != lefty.index(S.pop()): 

13 return False # mismatched 

l4 return S.is empty( ) # were all symbols matched? 


假定 输入 的 是 字符 序列 如 [(5 + x) ^ (y + z)]， 对 原始 的 序列 从 左 到 右 进 行 扫描 ， 使 用 栈 
匹配 这 一 组 分 隔 符 。 每 次 遇 到 开始 符 时 ， 我 们 都 将 其 压 人 栈 中 ; 每 次 遇 到 结束 符 时 ， 我 们 从 
栈 顶 弹出 一 个 分 隔 符 〈 假 定 栈 不 为 空 )， 并 检查 这 两 个 分 隔 符 是 否 能 够 组 成 有 效 的 一 对 。 如 
果 扫 描 到 表达 式 的 最 后 并 且 栈 为 空 ， 则 表明 原来 的 算数 表达 式 匹 配 正 确 ; 否则 ， 栈 中 一 定 存 
在 一 个 开始 分 隔 符 没 有 被 匹配 。 

如 果 原 始 算数 表达 式 的 长 度 为 n， 这 个 算法 将 最 多 n 次 调用 push 和 nn 次 调用 pop. BME 
假设 这 些 调用 的 均 摊 复 杂 度 边界 O(1)， 这 些 调用 总 运行 时 间 仍 为 O(n)。 对 于 给 定 的 可 能 出 
现 的 分 隔 符 ({[， 基 大 小 为 常量 ， 追 加 测试 如 lefty 中 的 c 和 righty.index(c)， 其 实际 运行 时 
间 都 在 0(1) 之 内 。 结 合 这 些 操 作 ， 一 个 序列 长 度 为 n 的 匹配 算法 的 运行 时 间 为 O(n)。 

标记 语言 的 标签 匹配 

一 个 分 隔 符 匹配 应 用 是 在 标记 语言 (A HTML 或 XML) 的 验证 中 。HTML 是 互联 网 
上 超 文本 文档 的 标准 格式 ，XML 是 用 于 各 种 数据 集 的 扩展 标记 语言 。 图 6-3 所 示 即 为 一 个 
HTML 文件 实例 和 一 个 可 能 的 对 应 的 翻译 。 
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<body> 

<center> 

<hi> The Little Boat «/hi» 

</ center> 

<p> The storm tossed the little 
boat like a cheap sneaker in an 
old washing machine. The three 
drunken fishermen were used to 

such treatment, of course, but 


The Little Boat 


The storm tossed the little boat 
like a cheap sneaker in an 
old washing machine. The three 


drunken fishermen were used to 
such treatment, of course, but not 
the tree salesman, who even as 
a stowaway now felt that he had 
overpaid for the voyage. 

1. Will the salesman die? 

2. What color is the boat? 

3. And what about Naomi? 


not the tree salesman, who even as 
a stowaway now felt that he 

had overpaid for the voyage. </p> 

<ol> 

<li> Will the salesman die? </li> 
<li> What color is the boat? </li> 
<li> And what about Naomi? «/li» 


</ol> 
</body> 





a) —4# HTML 文件 b) 它 的 翻译 
图 6-3 HTML 标记 的 说 明 


在 一 个 HTML 文本 中 ， 部 分 文本 是 由 HTML 标签 分 隔 的 。 一 个 简单 的 HTML 开始 标 
签 的 形式 为 “<name>”， 相 应 的 结束 标签 的 则 是 “</name>” 的 形式 。 例 如 ， 我 们 在 图 6-3a 
的 第 一 行 中 看 到 了 标签 <body>， 并 在 末尾 看 到 了 与 其 相 匹 配 的 标签 </body>。 在 这 个 例子 
中 ， 其 他 一 些 经 常 使 用 的 HTML 标签 如 下 : 
body: 文档 内 容 
hl : 节 标 题 
center: 居中 对 齐 
p: 段落 
ol: 编号 (命令) 列表 
li: 表 项 

理想 情况 下 ， 一 个 HTML 文本 应 该 有 相 匹 配 的 标记 ， 尽 管 大 多 数 浏览 器 能 够 容忍 一 定 
数量 的 失 配 标签 。 代 码 段 6-5 给 出 了 一 个 Python 函数 ， 这 个 函数 实现 在 一 个 代表 HTML X 
本 的 字符 串 中 进行 标签 匹配 。 我 们 从 左 往 右 扫描 原始 字符 串 ， 用 符号 j 来 跟踪 我 们 的 进度 ， 
并 且 用 str 类 的 find 方法 来 定位 定义 了 这 个 标签 的 ”<and> ”字符 。 开 始 标签 被 压 入 栈 中 ， 
当 其 从 栈 中 弹出 时 ， 即 与 结束 标签 进行 匹配 。 正 如 我 们 在 代码 段 6-4 中 匹配 分 隔 符 所 做 的 那 
样 。 通 过 相似 的 分 析 ， 这 个 算法 的 运行 时 间 为 0(n)， 其 中 是 这 个 原始 HTML 文本 中 字符 
的 数量 。 


代码 段 6-5 ”测试 一 个 HTML 文本 是 否 有 匹配 标签 的 函数 


def is_matched_html(raw): 


1 

2  """Return True if all HTML tags are properly match; False otherwise." " " 
3 S = ArrayStack() 

4 j = raw.find('<') # find first '<' character (if any) 
5 while j != 一 1: 

6 k = raw.find('>', j+1) # find next '>' character 

J if k == —1: 

8 return False # invalid tag 

9 tag — raw[j--1:k] # strip away < > 

10 if not tag.startswith('/'): # this is opening tag 

11 S.push(tag) 

12 else: # this is closing tag 


13 if S.is empty( ): 
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14 return False # nothing to match with 

15 if tag[1:] !— S.pop(): 

16 return False # mismatched delimiter 

17 j = raw.find(' «', k+1) # find next '«' character (if any) 

18 return S.is empty( ) # were all opening tags matched? 
6.2 ”队列 


队列 是 另 一 种 基本 的 数据 结构 ， 它 与 栈 互 为 “表亲 ”关系 ， 队 列 是 由 一 系列 对 象 组 成 的 
集合 ， 这 些 对 象 的 插入 和 删除 遵循 先进 先 出 〈First in First out, FIFO) 的 原则 。 也 就 是 说 ， 
元 素 可 以 在 任何 时 刻 进行 插入 ， 但 是 只 有 处 在 队列 最 前 面 的 元 素 才 能 被 删除 。 

我 们 通常 将 队列 中 允许 插入 的 一 端 称 为 队 尾 ， 将 允许 删除 的 一 端 则 称 为 队 头 。 对 这 个 术 
语 的 一 个 形象 比喻 就 是 一 队 人 在 排队 进入 游乐 场 。 人 们 从 队 尾 插入 排队 等 待 进入 游乐 场 ， 而 
从 这 个 队 的 队 头 进入 游乐 场 。 还 有 许多 其 他 关于 队列 的 应 用 ， 如 图 6-4 所 示 。 商 店 、 影 院 、 
预订 中 心 和 其 他 类 似 的 服务 场所 通常 按照 “先进 先 出 ”的 原则 处 理 客户 的 请 求 。 对 于 顾客 服 
务 中 心 的 电话 呼叫 或 者 餐厅 的 等 候 顾客 而 言 ， 队 列 会 成 为 一 个 合乎 逻辑 的 选择 。FIFO 队列 
还 广泛 应 用 于 许多 计算 设备 中 ， 比 如 一 个 网 络 打印 机 或 者 一 个 响应 请 求 的 Web 服务 器 。 






a) 人 们 排队 购 票 


b ) 电话 被 路 由 到 一 个 客户 服务 中 心 
图 6-4 现实 世界 中 一 个 先进 先 出 的 队列 实例 


6.2.1 ”队列 的 抽象 数据 类 型 


通常 来 说 ， 队 列 的 抽象 数据 类 型 定义 了 一 个 包含 一 系列 对 象 的 集合 ， 其 中 元 素 的 访问 和 
删除 被 限制 在 队列 的 第 一 个 元 素 ， 而 且 元 素 的 插入 被 限制 在 序列 的 尾部 。 这 个 限制 根据 先进 
先 出 原则 执行 元 素 的 插入 和 删除 操作 。 对 于 队列 Q 而 言 ， 队 列 的 抽象 数据 类 型 (ADT) 支持 
如 下 两 个 基本 方法 : 

e Q.enqueue(e): 向 队列 Q 的 队 尾 添加 一 个 元 素 。 

© Q.dequeue(): 从 队列 Q 中 移 除 并 返回 第 一 个 元 素 ， 如 果 队 列 为 空 ， 则 触发 一 个 错误 。 
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队列 的 抽象 数据 类 型 (ADT) 还 包括 如 下 方法 (第 一 个 类 似 于 堆栈 的 pop 方法 ): 

© Q.first(): 在 不 移 除 的 前 提 下 返回 队列 的 第 一 个 元 素 ; 如 果 队 列 为 空 ， 则 触发 一 个 错误 。 
e Q.is emptyO: 如 果 队 列 Q 没有 包含 任何 元 素 则 返回 布尔 值 “True”。 

e len(Q) : 返回 队列 Q 中 元 素 的 数量 ; 在 Python 中， 我 们 通过 ”len _ 这 个 特殊 的 方 


法 实现 。 
按照 惯例 ， 假 设 一 个 新 创建 的 队列 为 空 ， 并 且 队 列 的 容量 没有 先天 的 上 限 。 添 加 进去 的 
元 素 也 没有 任何 类 型 限制 。 


例题 6-4 : 下 表 列 出 了 一 系列 队列 的 操作 和 在 最 初 为 空 的 整数 类 型 队列 中 实施 这 些 操作 
后 的 效果 。 


操作 返回 first 一 Q 一 last 
Q.enqueue(5) [5] 
Q.enqueue(3) [5,.3] 
len(Q) (5, 3] 
Q.dequeue() [3] 
Q.is empty() False [3] 
Q.dequeue() 
Q.is empty() True 0 
Q.dequeue() "error" 0 


Q.enqueue(7) 


rm 
L| 


Q.enqueue(9) [7, 9] 
Q.first() [7, 9] 
Q.enqueue(4) [7,9,4] 
len(Q) [7, 9, 4] 
Q.dequeue() [9, 4] 


6.2.2 ”基于 数组 的 队列 实现 


对 于 栈 这 种 抽象 数据 结构 类 型 ， 我 们 用 Python 列表 作为 底层 存储 创造 了 一 个 非常 简 
单 的 适配器 类 ， 也 可 以 使 用 类 似 的 方法 支持 一 个 队列 的 抽象 数据 类 型 。 我 们 可 以 通过 调用 
append(e) 方法 将 e 加 至 列表 的 尾部 。 当 一 个 元 素 退 出 队列 时 ， 我们 可 以 使 用 pop(0) 而 不 是 
pop() 从 列表 中 来 有 意 移 除 第 一 个 元 素 。 

由 于 这 个 实现 很 容易 ， 因 此 它 也 最 为 低 效 。 正 如 我 们 在 5.4.1 节 讨 论 的 ， 当 pop 操作 在 
一 个 列表 中 以 非 索引 的 方式 调用 时 ， 可 以 通过 执行 一 个 循环 将 所 有 在 特定 索引 另 一 边 的 元 素 
转移 到 它 的 左边 ， 目 的 是 为 了 填补 由 pop 操作 给 序列 造成 的 “ 洞 ” 。 因 此 ， 一 个 pop(0) 操作 
的 调用 总 是 处 于 最 坏 的 情况 ， 耗 时 为 @ (n)。 

我 们 可 以 改进 上 面 的 策略 ， 完 全 避免 调用 pop(0)。 可 以 用 一 个 指 代 为 空 的 指针 代替 这 个 
数组 中 离队 的 元 素 ， 并 且 保 留 一 个 显 式 的 变量 f 来 存储 当前 在 最 前 面 的 元 素 的 索引 。 这 样 一 
个 算法 对 于 离队 操作 而 言 耗 时 为 O(1)。 几 次 离 
队 操 作 后 ， 这 个 方法 可 能 会 导致 如 图 6-5 所 示 LF. 
的 情景 。 0 1 2 f 

不 幸 的 是 ， 修 改 后 的 方法 仍然 有 一 个 缺点 。 图 6-5 “允许 队列 的 前 端 远离 索引 0 
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在 一 个 栈 的 设计 中 ， 列 表 的 长 度 就 是 栈 的 大 小 (甚至 列表 底层 的 存储 数组 略 大 )。 对 于 我 们 
正在 考虑 的 队列 的 设计 ， 情 况 更 糟 。 例 如 ， 建 立 一 个 含有 相对 较 少 元 素 的 队列 时 ， 系 统 可 能 
让 这 些 元 素 存 储 在 一 个 任意 大 的 列表 中 。 如 果 不 断 重复 地 往 一 个 队列 中 添加 一 个 新 的 元 素 ， 
然后 删除 男 一 个 (允许 最 前 端 向 右 漂 移 )， 就 会 发 生 这 样 的 情况 ， 即 随 着 时 间 的 推移 ， 底 层 
列表 的 大 小 将 逐渐 增长 到 Om), HP m 值 等 于 自 队 列 创建 以 来 对 队列 进行 追加 元 素 操 作 的 
数量 总 和 ， 而 不 是 当前 队列 中 元 素 的 数量 。 

这 种 设计 会 在 一 些 所 需 队 列 的 大 小 相对 稳定 却 被 长 时 间 使 用 的 应 用 程序 中 产生 不 利 的 影 
响 。 例 如 ， 和 餐厅 点 餐 队 列 的 长 度 在 某 一 个 时 刻 基本 上 不 可 能 超过 30 个 ， 但 是 在 一 天 (或 者 
一 周 )， 排 队 的 总 长 度 将 非常 大 。 

循环 使 用 数组 

为 了 开发 一 种 更 加 健壮 的 队列 实现 方法 ， 我 们 让 队列 的 前 端 趋向 右 端 ， 并 且 让 队列 内 的 
元 素 在 底层 数组 的 尾部 “循环 " 。 假 定 底层 数组 的 长 度 为 固定 值 Y， 它 比 实际 队列 中 元 素 的 
数量 大 。 新 的 元 素 在 当前 队列 的 尾部 利用 入 队列 操作 进入 队列 ， 逐 步 将 元 素 从 队列 的 前 面 揪 
入 索引 为 WY- 1 的 位 置 ， 然 后 紧 接 着 是 索引 为 0 的 位 置 ， 接 下 来 是 索引 为 1 的 位 置 。 图 6-6 
所 示 为 一 个 第 一 个 元 素 为 E 最 后 一 个 元 素 为 M 的 队列 ， 可 用 于 说 明 这 一 过 程 。 





图 6-6 用 一 个 首尾 相连 的 循环 数组 模拟 一 个 队列 


实现 这 种 循环 的 方法 并 不 困难 。 当 从 队列 中 删除 一 个 元 素 并 欲 更 新 前 面 的 索引 时 ， 我 们 
可 以 使 用 算式 £+ 1)%N 进行 计算 。 回 想 一 下 在 Python 中 % 操作 指 的 是 “ 模 ” 运 算 操 作 ， 


它 是 整数 除法 之 后 取 余数 的 值 。 例 如 ，14 被 3 整除 得 到 的 商 为 4 余数 为 2， 即 二 =43。 因 
Jt, 在 Python 中 ，14 // 3 得 到 的 结果 为 4， 而 14%3 的 结果 为 2。 取 模 操作 是 处 理 一 个 循环 
数组 的 理想 操作 。 举 一 个 具体 的 例子 ， 如 果 有 一 个 长 度 为 10 的 列表 ， 并 且 一 个 索引 为 7 的 
首部 ， 我 们 可 以 通过 计算 (7 + 1)%10 来 更 新 首部 ， 这 很 简单 地 就 计算 出 是 8， 因 为 8 除 以 
10 商 为 0， 余数 是 8。 同 样 ， 更 新 索引 为 8 后 将 会 进入 索引 为 9 的 单元 。 但 是 当 从 索引 为 9 
(数组 的 最 后 一 个 单元 ) 处 更 新 时 ， 需 要 计算 (9 + 1)%10， 其 结果 为 得 到 索引 为 0 的 位 置 ( 因 
为 10 被 10 整除 ， 余 数 为 0 )。 

Python 队列 的 实现 方法 

在 代码 段 6-6 和 代码 段 6-7 中 ， 我 们 给 出 了 通过 使 用 Python 列表 以 循环 的 方式 来 实现 
一 个 队列 的 抽象 数据 类 型 的 完整 方法 。 其 中 ， 这 个 队列 类 维护 如 下 3 个 实例 变量 : 

© data: 指 一 个 固定 容量 的 列表 实例 。 

e size: 是 一 个 整数 ， 代 表 当 前 存储 在 队列 内 的 元 素 的 数量 (与 data 列表 的 长 度 正好 

相对 )。 

e front; 是 一 个 整数 ， 代 表 _data 实例 队列 中 第 一 个 元 素 的 索引 (假定 这 个 队列 不 为 空 )。 

尽管 这 个 队列 的 大 小 通常 为 0， 但 我 们 还 是 初始 化 一 个 可 以 保存 中 等 大 小 的 列表 用 于 存 
储 数据 。 同 时 ， 我 们 还 将 这 个 队列 front 索引 初始 化 为 0。 

当 队列 为 空 ，front RH dequeue 操作 被 调用 时 ， 系 统 会 抛 出 一 个 Empty 异常 实例 ， 在 
代码 段 6-1 中 ,我 们 为 栈 定义 了 这 个 异常 操作 。 
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| class ArrayQueue: 

2  """FIFO queue implementation using a Python list as underlying storage." "" 
3  DEFAULT.CAPACITY = 10 # moderate capacity for all new queues 
4 

5 def init. (self): 

6 """ Create an empty queue." "" 

7 self. data = [None] + ArrayQueue.DEFAULT. CAPACITY 

8 self. size — 0 

9 self. front — 0 
10 
l1 def len. (self): 
12 """ Return the number of elements in the queue." "" 
13 return self. size 
14 
15 def is_empty(self): 
16 """ Return True if the queue is empty." " " 
17 return self. size —— 0 

18 

19 def first(self): 
20 """Return (but do not remove) the element at the front of the queue. 
21 
22 Raise Empty exception if the queue is empty. 
23 em 
24 if self.is empty( ): 
25 raise Empty('Queue is empty!) 
26 return self. data[self. front] 
27 
28 def dequeue(self): 
29 """ Remove and return the first element of the queue (i.e., FIFO). 
30 
31 Raise Empty exception if the queue is empty. 
32 ai 
33 if self.is empty(): 
34 raise Empty('Queue is empty') 
35 answer — self. data[self. front] 
36 self. data[self. front] — None # help garbage collection 
37 self. front — (self. front 十 1) % len(self. data) 
38 self. size —— 1 
39 return answer 

代码 段 6-7 一 个 基于 数组 的 队列 的 实现 (上 接 代码 段 6-6 ) 

40 def enqueue(self, e): 
4] """ Add an element to the back of queue." "" 
42 if self. size —— len(self. data): 
43 self. resize(2 * len(self.data)) # double the array size 
44 avail = (self._front + self._size) % len(self. data) 
45 self. data[avail] = e 
46 self. size += 1 
47 
48 def resize(self, cap): # we assume cap >= len(self) 
49 """Resize to a new list of capacity >= len(self)." "" 
50 old = self._data # keep track of existing list 
51 self. data = [None] + cap # allocate list with new capacity 
52 walk = self._front 
53 for k in range(self. size): # only consider existing elements 
54 self. data[k] — old[walk] # intentionally shift indices 
55 walk = (1 十 walk) % len(old) # use old size as modulus 
56 self. front — 0 # front has been realigned 
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限于 本 书 的 篇 幅 ， 此 处 省 略 了 — len 和 is_ empty 方 法 的 具体 实现 。front 方法 的 实现 
也 十 分 简单 ， 因 为 当 假定 列表 不 为 空 时 ，front 索引 能 够 精确 地 告诉 我 们 目标 元 素 在 data 列 
表 的 什么 位 置 。 

添加 和 删除 元 素 

入 队 方 法 的 目的 是 在 队列 的 尾部 添加 一 个 新 的 元 素 。 我 们 需要 确定 适当 的 索引 ， 并 将 新 
元 素 插 和 人 对 应 的 位 置 中 。 虽 然 我 们 没有 明确 地 为 队列 的 尾部 信息 维护 一 个 实例 化 变量 ， 但 是 
可 以 利用 下 面 的 公式 计算 下 一 个 插入 的 位 置 : 


avail = (self. front 十 self. size) % len(self. data) 


注意 ,在 插入 新 元 素 时 ， 要 使 用 这 个 队列 的 大 小 。 例 如 ， 考 虑 一 个 存储 容量 为 10 的 队 
列 ， 当 前 的 队列 长 度 为 3， 并 且 第 一 个 元 素 所 在 的 索引 为 S， 这 个 队列 中 已 有 的 3 个 元 素 的 
存储 位 置 即 为 索引 5、6 和 7， 因 此 ， 新 的 元 素 应 该 被 放置 在 索引 为 〈( front + size) =8 的 位 置 
上 。 在 一 个 首尾 相连 的 循环 队列 实例 中 ， 利 用 模 运 算 可 以 实现 这 种 想 要 的 循环 语义 。 例 如 ， 
如 果 假 设 的 队列 有 3 个 元 素 并 且 第 一 个 元 素 在 索引 8 的 位 置 上 ， 我 们 通过 计算 (8 + 3)%10 得 
到 结果 为 1， 这样 的 结果 完全 正确 ， 因 为 3 个 现 有 的 元 素 占据 索引 为 8、9 和 0 对 应 的 位 置 。 

当 调 用 dequeue ## fE HT, self. front 的 当前 值 指明 将 要 被 删除 和 返回 的 值 的 索引 。 
我 们 为 将 要 返回 的 元 素 保 存 一 个 本 地 的 引用 ， 在 从 列表 中 删除 该 对 象 的 引用 之 前 ， 设 
answer-self. data[self. front], JfiX self. data[self. frontlj=None。 设 为 None 的 原因 与 Python 
回收 未 使 用 空间 的 机 制 有 关 。 在 内 部 ，Python 对 已 存 的 对 象 维护 了 一 个 对 其 的 引用 计数 的 计 
数 器 。 如 果 计 数 变 为 0， 这 个 对 象 实际 上 就 无 法 访问 ， 那 么 系统 会 回收 这 部 分 的 内 存 以 备 将 
来 使 用 (详细 内 容 参 见 15.1.2 节 )。 由 于 我 们 不 再 负责 存储 一 个 已 经 离队 元 素 ， 因 此 将 从 列 
表 中 删除 该 元 素 的 引用 以 减少 这 个 元 素 的 引用 计数 。 

dequeue 操作 的 第 二 个 重要 任务 是 更 新 _front 的 值 以 反映 元 素 的 移 除 ， 并 将 第 二 个 元 
素 变 成 新 的 第 一 个 元 素 。 在 大 多 数 情况 下 ， 我 们 可 以 简单 地 通过 让 索引 值 加 “1” 更 新 ， 但 
是 由 于 存在 环 式 处 理 的 可 能 ， 我 们 通常 是 依靠 模 运 算 处 理 ， 这 在 本 节 前 面 已 经 有 详细 的 
HHI 

调整 队列 的 大 小 

当 依 次 调用 enqueue 操作 ， 且 队列 的 大 小 恰好 和 底层 存储 的 列表 大 小 相等 时 ， 我 们 
可 以 使 用 倍增 底层 列表 存储 大 小 的 标准 技术 。 通 过 这 种 方式 ， 我 们 可 以 用 与 5.3.1 节 实 现 
DynamicArray 方法 类 似 的 方式 实现 这 个 操作 。 

然而 ， 在 队列 中 的 resize TH: L, B f 
比 在 实现 DynamicArray 类 的 相关 方法 上 更 
加 谨慎 : 在 对 这 个 旧 列 表 创 建 一 个 临时 的 引 
用 后 ， 我 们 分 配 了 一 个 是 原来 旧 列 表 2 倍 大 
小 的 新 列表 ， 并 且 将 引用 信息 从 旧 列 表 复 制 
到 新 列表 中 。 在 传输 内 容 的 同时 ， 我 们 故意 moi 2 
在 新 的 数组 中 将 队列 的 首部 索引 调整 为 0， 图 6-7 调整 队列 的 大 小 ， 同 时 为 新 的 元 素 分 配 0 
如 图 6-7 所 示 。 这 种 调整 并 不 单纯 为 了 好 号 索引 
看 。 由 于 这 个 模 算法 依赖 于 数组 的 大 小 ， 因 
此 将 每 个 元 素 转移 到 新 的 数组 并 维持 与 原来 相同 的 索引 时 ， 状 态 将 会 存在 问题 。 
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缩减 底层 数组 

队列 实现 过 程 中 ， 理 想 的 性 能 是 有 O(n) 的 空间 复杂 度 ， 其 中 指 的 是 当前 队列 中 元 素 
的 个 数 。 正 如 代码 段 6-6 和 代码 段 6-7 给 出 的 ，ArrayQueue 的 实现 并 不 具备 这 种 属性 。 当 在 
队列 满 的 状态 下 调用 enqueue 操作 时 ， 底 层 的 存储 数组 就 要 进行 扩展 ,但 是 调用 出 队 操 作 的 
时 候 却 并 不 会 进行 缩减 数组 的 大 小 的 处 理 。 这 样 处 理 的 结果 是 ,底层 的 存储 数组 的 大 小 是 队 
列 曾 存储 的 最 多 元 素 的 个 数 ， 而 不 是 当前 元 素 的 个 数 。 

我 们 在 5.3.2 节 的 动态 数组 部 分 讨论 过 这 个 问题 ， 在 随后 的 练习 C-5.16 — C-5.20 中 将 
继续 讨论 这 个 问题 。 无 论 什么 时 候 ， 当 所 存储 的 元 素 降 低 到 数组 总 存储 能 力 的 1/4 时 ， 一 个 
健壮 的 方法 是 将 这 个 数组 大 小 缩减 到 当前 容量 的 一 半 。 这 一 处 理 可 以 通过 在 dequeue 方法 中 
插入 如 下 两 行 代码 来 实现 ， 只 需要 追加 在 代码 段 6-6 的 第 38 行 减少 self. size 处 理 部 分 之 后 
即 可 ， 用 于 反映 一 个 元 素 的 丢失 。 


if 0 < self. size < len(self. data) // 4: 
self. resize(len(self. data) // 2) 


对 基于 数组 的 队列 实现 的 分 析 

在 考虑 利用 上 述 改 进 方法 来 不 时 缩小 数组 的 大 小 进行 维护 队列 处 理 的 前 提 下 ， 表 6-3 列 
出 了 基于 数组 实现 队列 抽象 数据 类 型 的 性 能 。 除 了 resize 程序 ， 所 有 的 方法 都 依赖 于 一 个 
常数 数量 的 算术 操作 、 比 较 和 赋值 等 语句 。 因 此 ， 除 了 enqueue 和 dequeue 操作 是 具有 均 捧 
复杂 度 边界 为 0(1)， 其 余 的 每 一 个 方法 在 最 坏 的 情况 下 运行 时 间 为 OC(1)， 其 原因 与 5.3 节 
给 出 的 相似 。 


表 6-3 基于 数组 实现 队列 的 性 能 。enqueue 和 dequeue 操作 的 时 间 复 杂 度 边界 会 因 对 数组 大 
小 重新 调整 的 处 理 而 被 均 摊 。 空 间 利用 率 为 O(n)， 其 中 n 是 当前 队列 中 的 元 素数 量 


操作 运行 时 间 
Q.enqueue(e) O(1) 
Q.dequeue() O(1) 
Q.first() O(1) 
Q.is-empty() O(1) 
len(Q) O(1) 
* PEAR AY 
6.3 双 端 队列 


接 下 来 考虑 一 个 类 队列 数据 结构 ， 它 支持 在 队列 的 头 部 和 尾部 都 进行 插入 和 删除 操作 。 
这 样 一 种 结构 被 称 为 双 端 队列 ( double-ended queue 或 者 deque)， 它 的 发 音 通常 为 “ deck", 
以 免 与 通常 的 队列 抽象 数据 类 型 的 方法 dequeue 相 混 淆 ， 后 者 的 发 音 类 似 于 “D.Q” 的 缩写 。 

双 端 队列 的 抽象 数据 类 型 比 栈 和 队列 的 抽象 数据 类 型 要 更 普遍 。 在 一 些 应 用 中 ， 这 些 额 
外 的 普遍 性 是 非常 有 用 的 ， 例 如 使 用 一 个 队列 来 描述 餐馆 当中 的 等 餐 队 列 。 一 般 情况 下 ， 第 
一 个 人 会 在 发 现 餐 馆 中 没有 空闲 的 桌子 时 从 队列 的 前 面 离开 ， 而 这 个 时 候 餐 馆 会 重新 在 队列 
的 前 面 插入 一 个 人 。 同 样 ， 处 于 队列 尾部 的 顾客 也 可 能 由 于 不 耐烦 而 离开 队伍 。( 如 果 想 模 
拟 顾 客 从 其 他 位 置 离开 ， 我 们 需要 一 个 更 加 通用 的 数据 结构 ) 


6.3.4 双 端 队列 的 抽象 数据 类 型 
为 了 提供 一 个 相 类 似 的 抽象 ， 可 以 定义 双 端 队列 的 抽象 数据 类 型 D， 这 个 ADT 支持 如 
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下 方法 : 
e D.add first(e): 向 双 端 队列 的 前 面 添加 一 个 元 素 e。 
e D.add last(e): 在 双 端 队列 的 后 面 添加 一 个 元 素 ec 
e D.delete first() : 从 双 端 队列 中 移 除 并 返回 第 一 个 元 素 。 若 双 端 队列 为 空 ， 则 触发 一 


个 错误 。 
e D.delete last() : 从 双 端 队列 中 移 除 并 返回 最 后 一 个 元 素 。 若 双 端 队列 为 空 ， 则 触发 
一 个 错误 。 


此 外 ， 双 端 队列 的 抽象 数据 类 型 还 包括 如 下 的 方法 : 
e D.first() : 返回 (但 不 移 除 ) 双 端 队列 的 第 一 个 元 素 。 若 双 端 队列 为 空 ， 则 触发 一 个 


错误 。 
e D.last() : 返回 (但 不 移 除 ) 双 端 队列 的 最 后 一 个 元 素 。 知 双 端 队列 为 空 ， 则 触发 一 个 
错误 。 


e Dis empty(): 如 果 双 端 队列 不 包含 任何 一 个 元 素 ， 则 返回 布尔 值 “True”。 
e len(D) : 返回 当前 双 端 队列 中 的 元 素 个 数 。 在 Python 中 ,我 们 用 len _ 这 个 特殊 
的 方法 实现 。 
例题 6-5 : 下 表 展 示 了 一 系列 双 端 队列 的 操作 和 它们 在 一 个 初始 化 为 整数 类 型 的 空 双 端 
队列 中 的 效果 


操作 双 端 队列 
D.add lasi(5) | [5] 
D.add first(3) = (3, 5] 
D.add first(7) TENE PPP U. 3.5] 
Drs (7.3.5) 
D.delete last() (7, 3] 
len(D) (7,31 
D.delete_last() (7) 
D.dclete last) 0 
D.add_first(6) ee eee atl [6] 
D.last() f= Se o] [6 
D.add_first(8) Peat. [8, 6] 
Dis empty 8.4 
D.last | [8. 6] 


6.3.2 ”使 用 环形 数组 实现 双 端 队列 


我 们 可 以 使 用 与 代码 段 6-6 和 代码 段 6-7 提供 的 实现 ArrayQueue 类 相同 的 方法 来 实现 
双 端 队列 的 抽象 数据 类 型 (我 们 把 通过 ArrayQueue 实现 双 端 队列 的 细节 留 在 了 练习 P-6.32 
中 )。 我 们 建议 保持 3 个 相同 的 实例 变量 : data、_size 和 front。 无 论 什 么 时 候 ， 只 要 想 知 
道 双 端 队列 的 尾部 索引 ， 或 者 超过 队 尾 的 第 一 个 可 用 的 位 置 ， 我 们 就 可 以 通过 模 运 算计 算得 
出 。 例 如 ， 方 法 last) 就 是 使 用 如 下 索引 公式 来 实现 的 


back = (self. front + self.size 一 1) % len(self. data) 


对 于 方法 ArrayDeque.add_last， 我 们 采用 了 与 方法 ArrayQueue.add last 相同 的 实现 方 
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法 ， 也 利用 了 一 个 _resize 程序 。 类 似 地 ，ArrayDeque.delete first 方法 的 实现 与 ArrayQueue. 
dequeue 方法 相同 。 实 现 add first 与 delete last 采用 了 相似 的 技术 ， 其 中 的 一 处 不 同 是 ,在 
调用 add first 时 需要 循环 处 理 数组 起 始 位 置 ， 因 此 我 们 借助 模 RR) 运算 来 循环 地 计算 索 
引 值 

self. front = (self. front — 1) % len(self._data) # cyclic shift 

基于 数组 的 双 端 队列 ArrayDeque 与 基于 数组 的 队列 ArrayQueue 的 效率 很 相似 ， 所 有 
操作 都 能 在 OC) 内 能 完成 ， 但 是 由 于 有 些 操 作 的 时 间 边 界 将 会 摊 销 ， 这 可 能 会 改变 底层 数 
组 的 大 小 。 


6.3.3 Python collections 模块 中 的 双 端 队列 


Python 的 标准 collections 模块 中 包含 对 一 个 双 端 队列 类 的 实现 方法 。 表 6-4 给 出 了 
collections.deque 类 最 常用 的 方法 。 这 里 使 用 了 比 之 前 的 抽象 数据 类 型 更 加 不 对 称 的 命名 。 


表 6-4 双 端 队列 的 抽象 数据 类 型 与 collections.deque 类 的 比较 


RAT T 

D.add first() 加 到 开头 

Tp EDT 

D.delete first() 从 开头 移 除 

D.delete last() 从 结尾 移 除 

D.first() | pn | OS 访问 第 一 个 元 素 

D.last() 访问 最 后 一 个 元 素 
TI 
E 
MASAS 
E 
eer 


双 端 队列 集合 的 接口 选用 与 已 经 建立 的 Python 列表 类 命名 约定 一 致 ， 因 为 pop 方法 与 
append 方法 都 被 认为 是 在 列表 的 尾部 操作 。 因 此 ，appendleft 和 popleft 都 指 的 是 在 列表 的 
首部 操作 。 库 双 端 队列 同样 也 模仿 了 一 个 列表 ， 因 为 它 是 一 个 带 索 引 的 序列 ， 人 允许 使 用 Dj] 
的 语法 任意 访问 和 修改 。 

库 双 端 队 列 的 构造 函数 同样 支持 一 个 可 选 的 maxlen 参数 以 建立 一 个 固定 长 度 的 双 端 队 
列 。 然 而 ， 当 双 端 队列 满 时 ， 如 果 在 队列 的 任意 一 端 调用 append 方法 ， 它 并 不 会 触发 一 个 
fate; 相反 ， 这 会 导致 在 相反 一 端 移 除 一 个 元 素 。 也 就 是 说 ， 当 队列 满 时 ， 调 用 appendleft 
方法 会 导致 右 端 一 个 隐藏 的 pop 调用 发 生 ， 以 便 为 新 加 入 的 元 素 腾 出 空间 。 

当前 Python 版 本 使 用 了 一 个 混合 的 方法 实现 collection.deque， 这 种 方法 使 用 了 循环 数 
组 ， 这 些 循环 数组 被 组 合 到 块 中 ， 而 这 些 块 本 身 又 被 组 织 进 一 个 双向 链表 中 (我 们 将 在 下 一 
章 介绍 这 种 数据 结构 )。 双 端 队列 类 保证 在 任何 一 端 操作 的 耗 时 为 O(1)， 但 在 最 坏 的 操作 情 
况 下 ， 当 使 用 靠近 双 端 队列 中 部 附近 的 索引 时 ， 耗 时 将 为 O(n)。 
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练习 


www.wiley.com/college/goodrich. 以 获得 练习 帮助 。 


如 果 在 一 个 初始 化 为 空 的 栈 上 执行 如 下 一 系列 操作 ， 将 返回 什么 值 ?push(5), pu-sh(3), pop(), 
push(2), push(8), pop(), pop(), push(9), push(1), pop(), push(7), push(6), pop(), pop(), push(4), 
pop(), pop()。 
假设 一 初始 化 为 空 的 栈 8 已 经 执行 了 25 个 push 操作 、12 7 top 操作 和 10 个 pop 操作 ， 其 中 
3 个 触发 了 栈 空 错误 。 请 问 S 目前 的 大 小 是 多 少 ? 
实现 一 个 函数 transfer(S, T) 将 栈 S 中 的 所 有 元 素 转移 到 栈 T 中 ,使 位 于 S 栈 顶 的 元 素 被 第 一 个 
插入 栈 T 中 ,使 位 于 S 栈 底 的 元 素 最 后 被 插 和 人 栈 T 的 顶部 。 
给 出 一 个 用 于 从 栈 中 移 除 所 有 元 素 的 递归 实现 方法 。 
实现 一 个 函数 ， 通 过 将 一 个 列表 内 的 元 素 按 顺 序 压 人 堆栈 中 ， 然 后 逆序 把 它们 写 回 到 列表 中 ， 
实现 列表 的 逆 置 。 
给 出 一 个 算术 表达 式 中 分 组 符号 匹配 的 精确 而 完整 的 定义 。 应 保证 定义 可 以 是 递归 的 。 
如 果 在 一 个 初始 化 为 空 的 队列 上 执行 如 下 一 系列 操作 后 ， 返 回 值 是 什么 ? enqueue(5), enqueue(3), 
dequeue(), enqueue(2), enqueue(8), dequeue(), dequeue(), enqueue(9),enqueue(1), dequeue(), 
enqueue(7), enqueue(6), dequeue(), dequeue(), enqueue(4), dequeue(), dequeue(). 
假设 一 个 初始 化 为 空 的 队列 O 已 经 执行 了 共 32 次 入 队 操 作 、10 次 取 首 部 元 素 操 作 和 15 次 出 
队 操作 ， 其 中 5 次 触发 了 队列 为 空 的 错误 。 队 列 2 目前 的 大 小 是 什么 ? 
假定 先前 所 述 问 题 的 队列 是 ArrayQueue 的 实例 且 初 始 化 为 30， 并 且 假 定 它 的 大 小 不 会 超过 
30, ABA front 实例 变量 的 最 终 值 是 多 少 ? 

试想 ， 如 果 代 码 段 6-7 ArrayQueue. Resize 方法 中 的 第 53 — 55 行 执行 如 下 loop 循环 将 会 发 生 

什么 ? 给 出 错误 的 详细 解释 。 


for k in range(self. size): 
self. data[k] — old[k] # rather than old[walk] 


给 出 一 个 简单 的 适配器 实现 队列 ADT， 其 中 采用 一 个 collections.deque 实例 做 存储 。 

在 一 个 初始 化 为 空 的 双 端 队列 中 执行 以 下 一 系列 操作 ， 将 会 返回 什么 结果 ? add first(4), add_ 
last(8), add last(9), add first(5), back(), delete first(), delete last(), add last(7), first(), last(), 
add last(6), delete first(), delete first(). 

假设 有 一 个 含有 数字 (1, 2, 3, 4, 5,6, 7, 8) 并 按 这 一 顺序 排列 的 双 端 队列 D， 并 进一步 假设 
有 一 个 初始 化 为 空 的 队列 9。 给 出 一 个 只 用 DD 和 0 (不 包含 其 他 变量 ) 实现 的 代码 片段 ， 将 
元 素 (1, 2, 3, 5, 4, 6, 7, 8) 按 这 一 顺序 存储 在 D 中 。 

使 用 双 端 队列 D 和 一 个 初始 化 为 空 的 栈 5 重复 做 上 一 问题 。 


假设 爱丽 丝 选择 了 3 个 不 同 的 整数 ， 并 将 它们 以 随机 顺序 放置 在 栈 S 中。 写 一 个 简短 的 顺序 
型 的 伪 代 码 (不 包含 循环 或 递归 )， 其 中 只 包含 一 次 比较 和 一 个 变量 x， 使 得 爱丽 丝 的 3 个 整 
数 中 最 大 的 以 2/3 概率 存储 在 变量 x 中 ， 试 说 明 你 的 方法 为 什么 是 正确 的 。 

修改 基于 数组 的 栈 的 实现 方法 ， 使 栈 的 容量 限制 在 最 大 元 素数 量 maxlen 之 内 。 该 最 大 数量 对 
于 构造 函数 (默认 值 为 none) 是 一 个 可 选 参数 。 如 果 push 操作 在 栈 满 时 被 调用 ， 则 抛 出 一 个 
“ 栈 满 ”异常 〈 与 栈 空 异常 定义 类 似 )。 
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在 之 前 实现 栈 的 练习 中 ， 假 设 底层 列表 是 空 的 。 重 做 该 练习 ， 此 时 预 分 配 一 个 长 度 等 于 堆栈 
最 大 容量 的 底层 列表 。 

如 何 用 练习 R-6.3 中 描述 的 转换 函数 和 两 个 临时 栈 来 取代 一 个 给 定 相同 元 素 但 顺序 逆 置 的 栈 。 
在 代码 段 6-5 中 ,假设 HTML 的 开始 标签 具有 «name» 与 «Li» 的 形式 。 更 普遍 的 是 ,HTML 
允许 可 选 的 属性 作为 开始 标签 的 一 部 分 。 所 用 的 一 般 格式 是 <name attributel-"valuel" 
attribute2="value2"> ; 例如 ， 表 可 以 通过 使 用 开始 标签 <table border="3" cellpadding="5"> 被 
赋予 一 个 边界 和 附加 数据 。 修 改 代码 段 6-5， 使 得 即使 在 一 个 开始 标签 包含 一 个 或 多 个 这 样 的 
属性 时 ， 也 可 以 正确 匹配 标记 。 

通过 一 个 栈 实现 一 个 非 递归 算法 来 枚 举 (1,2, ny 所 有 排列 数 结果 。 

演示 如 何 使 用 栈 S 和 队列 O 非 递 归 地 生成 一 个 含 n 个 元 素 的 集合 所 有 可 能 的 子 集 集合 7。 

后 组 表示 法 是 一 种 书写 不 带 括号 的 算术 表达 式 的 简明 方法 。 它 是 这 样 定义 的 : WR “(exp ) 
OP(expz )” 是 一 个 普通 、 完 整 的 括号 表达 式 ， 它 的 操作 符 是 OP， 那 么 它 的 后 缀 版 本 为 “pexpi 
是 pexp; OP”, Hf pexp, 是 exp: 的 后 组 表示 形式 ，pexp: 是 exp, 的 后 缀 表示 形式 。 一 个 单一 
的 数字 或 变量 的 后 级 表示 形式 就 是 这 个 数字 或 变量 。 例 如 ,，“((5 + 2)*(8 - 3))/4” 的 后 组 版 本 
为 “52 + 83 一 *4/”。 写 出 一 种 非 递 归 方 式 实现 的 后 级 表达 式 转换 算法 。 

假设 有 3 个 非 空 栈 R、S、7T。 请 通过 一 系列 操作 ,将 5 中 的 元 素 以 其 原始 的 顺序 存储 到 了 中 
RATAN, RAR 中 元 素 的 顺序 不 变 。 例 如 ，R={1, 2, 3], S-[4, 5]. T-[6, 7, 8, 9]， 则 
最 终 的 结果 应 为 R=[1, 2,3], S=[6, 7, 8, 9, 4, 5]. 

描述 如 何 用 一 个 简单 的 队列 作为 实例 变量 实现 堆栈 ADT， 在 方法 体 中 ， 只 有 常量 占用 本 地 内 
存 。 在 你 所 设计 的 方法 中 ，push()、pop()、top0 的 运行 时 间 分 别 是 多 少 ? 

描述 如 何 用 两 个 栈 作 为 实例 变量 实现 队列 ADT， 这 样 使 得 所 有 队列 操作 的 平均 时 间 开 销 为 
O(1)。 给 出 一 个 正式 的 证 明 。 

描述 如 何 使 用 一 个 双 端 队列 作为 实例 变量 实现 队列 ADT。 该 方法 的 运行 时 间 是 多 少 ? 

假设 有 一 个 包含 n 个 元 素 的 栈 S 和 一 个 初始 为 空 的 队列 0， 描 述 如 何 用 2 扫描 8 来 查看 其 中 
是 否 包含 某 一 特定 元 素 x， 算 法 必须 返回 到 元 素 在 5S 中 原来 的 位 置 。 算 法 中 只 能 使 用 S、QO 和 
固定 数量 的 变量 。 

修改 ArrayQueue 实现 方法 ,使 队列 的 容量 由 maxlen 限制 ， 其 中 该 最 大 长 度 对 于 构造 函数 
(默认 为 none) 来 说 是 一 个 可 选 参数 。 如 果 在 栈 满 的 时 候 调 用 enqueue 操作 ， 则 触发 一 个 队列 
满 异常 (与 队列 空 异常 定义 类 似 )。 

在 队列 ADT 的 某 些 特定 应 用 中 ， 以 某 种 方式 对 一 个 元 素 反复 执行 人 队 出 队 操作 是 很 常见 的 。 
改造 基于 数组 的 队列 实现 方法 ， 加 入 一 个 rotate() 操作 ， 这 个 操作 与 Q.enqueue 和 Q.dequeue 
的 结合 具有 相同 的 语义 特征 。 然 而 ， 它 的 执行 效率 应 当 比 分 别 调用 两 个 方法 更 有 效 (例如 ， 
该 方法 中 不 需要 修改 队列 的 长 度 size). 

爱丽 丝 有 两 个 用 于 存储 整数 的 队列 O 和 有 R。 鲍 勃 给 了 爱丽 丝 50 个 奇数 和 50 个 偶数 ， 并 坚持 
让 她 在 队列 O Fl RERA 100 个 整数 。 然 后 他 们 玩 了 一 个 游戏 ， 鲍 勃 从 队列 O 和 RR 中 随机 
选择 元 素 (采用 在 本 章 所 描述 的 循环 调度 ， 其 对 于 选择 队列 的 次 数 是 随机 的 )。 如 果 在 游戏 结 
束 时 被 处 理 的 最 后 一 个 数 是 奇数 ， 则 饱 勃 胜 。 爱 丽 丝 能 如 何 分 配 整 数 到 队列 中 来 优化 她 获胜 
的 机 会 ? 她 获胜 的 机 会 是 什么 ? 

假设 鲍 勃 有 4 kA, Hh. (RA, REA AR, ik AEP 
Pili, WRB. WEHE, 但 可 以 立刻 将 其 绑 在 牛 上 或 从 牛 身上 拆 下 来 。4 头 牛 中 ， 
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Mazie 可 以 在 2 分 钟 内 过 桥 ，Daisy 可 以 在 4 分 钟 内 过 桥 ，Crazy 要 花 10 分 钟 ，Lazy 则 要 花 
20 分 钟 。 当 然 ， 当 两 只 牛 推 在 一 起 时 ， 它 们 必须 以 走 的 慢 的 牛 的 速度 前 进 。 摘 述 鲍 勃 应 该 如 
何 带 着 他 的 所 有 牛 在 34 分 钟 内 过 桥 。 


如 6.3.2 节 描 述 的 那样 ， 给 出 一 个 完整 的 基于 数组 的 双 端 队列 ADT 的 队列 实现 方法 。 

给 定 一 个 基于 数组 实现 双 端 队列 的 实现 方法 ， 使 其 支持 表 6-4 列 出 的 collection.deque 类 的 
所 有 公共 操作 ， 包 括 使 用 maxlen 这 个 可 选 参数 。 当 一 个 限制 长 度 的 队列 已 满 时 ， 提 供与 
collections.deque 类 相似 的 语义 ， 使 一 个 调用 将 一 个 元 素 搬入 双 端 队列 的 尾部 时 造成 相反 方向 
一 个 元 素 的 丢失 。 

实现 一 个 程序 ， 可 以 输入 以 后 组 形式 表示 的 算数 表达 式 ( 见 练习 C-6.22 ) 并 且 输 出 它 的 运算 
结果 。 

6.1 节 的 介绍 表明 ， 栈 通常 用 于 在 应 用 程序 中 提供 “撤销 ”支持 ， 如 网 络 浏览 器 或 文本 编辑 器 。 
虽然 支持 撤销 可 以 用 无 界 堆栈 来 实现 ， 但 许多 应 用 程序 只 使 用 容量 固定 的 堆栈 提供 有 限 步 的 
撤销 操作 。 当 压 栈 操作 在 满 栈 时 被 调用 ， 并 不 是 抛 出 栈 满 异常 ， 见 练习 C-6.16 )， 一 个 更 典型 
的 语义 是 接受 在 顶部 压 栈 的 元 素 ， 同 时 在 栈 底 部 “漏出 ”最 老 的 元 素来 腾 出 空间 。 

当 出 售 一 支 由 若干 家 公司 共享 的 公共 股票 时 ， 共 享 售 出 价 和 原始 买 人 价 的 资本 收益 (或 者 ， 
有 时 候 亏 损 ) 是 不 同 的 。 对 于 单一 共享 的 股票 这 个 规则 很 容易 理解 ， 但 如 果 出 售 的 是 一 支 已 
经 购买 了 很 久 的 共享 股票 时 ， 我 们 必须 鉴别 这 支 共 享 股票 是 真 的 在 出 售 。 在 这 个 例子 中 ， 对 
于 识别 哪个 共享 股票 被 卖 掉 的 问题 ， 一 个 标准 的 判断 原则 就 是 采用 FIFO 协议 一 一 这 支 被 共享 
出 售 的 股票 ， 往 往 是 那些 持 有 时 间 最 长 的 (实际 上 ， 这 种 默认 的 方法 已 被 封装 到 了 几 款 个 人 
投资 软件 包 中 )。 例 如 ,假设 买 100 股 共享 股票 ， 第 一 天 的 价格 为 每 股 20 美元 ， 第 二 天 有 20 
股 的 价格 是 24 美元 , 第 三 天 有 200 股 的 价格 为 36 美元， 而 在 第 四 天 以 每 股 30 美元 的 价格 
卖 出 150 股 。 根 据 FIFO 的 原则 ， 意 味 着 150 股 被 卖 掉 ， 第 一 天 买 了 100 i, BRET 20 
股 , 第 三 天 买 了 30 股 ， 因 此 在 这 个 例子 中 的 资本 收益 就 应 该 是 : 100 x 10 + 20 x 6 + 30 x (— 6) 
或 者 940 美元 。 写 一 个 程序 ， 用 于 表示 形 如 “以 每 股 y 美 元 的 价格 购买 了 x HE share (s) 股票 ” 
或 者 “以 每 股 y 美 元 的 价格 卖 出 x 股 share(s) 股票 ”的 一 组 事务 的 序列 ， 假 定 这 些 事务 发 生 在 
连续 的 几 天 之 内 ， 同 时 x Aly 的 值 都 是 整数 。 当 给 定 了 一 个 输入 序列 ,运用 FIFO 协议 来 识别 
共享 股票 ， 对 应 的 输出 序列 应 该 是 整个 序列 总 的 资本 收益 的 值 (或 者 资本 亏损 的 值 )。 

设计 一 个 两 色 双 向 栈 ADT， 其 中 包含 两 个 栈 ， 即 一 个 “ 红 ” 栈 和 一 个 “ 蓝 ” 栈 ， 并 包含 和 常 
规 栈 操作 一 致 的 有 颜色 编码 的 栈 操作 。 例 如 ， 在 这 个 ADT 中 ， 支 持 一 个 “ 红 ” 压 栈 操作 和 一 
个 “ 蓝 ” 压 栈 操 作 。 给 出 一 种 有 效 的 实现 方法 ， 即 采用 一 个 限定 容量 为 N 的 单个 数组 来 实现 
RA ADT, (RE V 值 始终 大 于 单个 的 “ 红 ” 栈 与 “ 蓝 ” 栈 大 小 之 和 。 


扩展 阅读 


本 章 先 介绍 以 数据 结构 的 ADT 来 定义 数据 结构 的 方法 ， 然 后 以 Aho Hopcroft 和 Ullman 等 人 的 
253 4548 S 中 的 所 给 出 模式 具体 实现 这 些 方法 。 练 习 C-6.30 和 C-6.31 与 一 些 著名 软件 公司 经 常 选 用 
的 面试 问题 非常 相似 。 如 果 需 要 进一步 学 习 和 了 解 抽 象 数据 类 型 ， 可 以 参考 Liskov 和 Cardelli 的 著作 T” 
以 及 Wegner?” 或 者 Demurjianb3 的 相关 书籍 。 
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在 第 5 章 ， 我 们 仔细 探讨 了 Python 的 基于 数组 的 list 类 。 在 第 6 章 ， 我 们 着 重 讨论 使 
用 这 个 类 来 实现 经 典 的 栈 、 队 列 、 双 向 队列 的 抽象 数据 类 型 ( Abstract Data Type, ADT). 
Python 的 list 类 是 高 度 优化 的 ， 并 且 通 常 是 考虑 存储 问题 时 很 好 的 选择 。 除 此 之 外 ，list 类 
也 有 一 些 明显 的 缺点 : 

1) 一 个 动态 数组 的 长 度 可 能 超过 实际 存储 数组 元 素 所 需 的 长 度 。 

2) 在 实时 系统 中 对 操作 的 摊 销 边界 是 不 可 接受 的 。 

3 ) 在 一 个 数组 内 部 执行 插入 和 删除 操作 的 代价 太 高 。 

在 本 章 ， 我们 介绍 一 个 名 为 链表 的 数据 结构 ， 它 为 基于 数组 的 序列 提供 了 男 一 种 选择 
(例如 Python 列表 )。 基 于 数组 的 序列 和 链表 都 能 够 对 其 中 的 元 素 保持 一 定 的 顺序 ， 但 采用 
的 方式 截然 不 同 。 数 组 提供 更 加 集中 的 表示 法 ， 一 个 大 的 内 存 块 能 够 为 许多 元 素 提供 存储 和 
引用 。 相 对 地 ， 一 个 链表 依赖 于 更 多 的 分 布 式 表示 方法 ， 采 用 称 作 节 点 的 轻 量 级 对 象 ， 分 配 
给 每 一 个 元 素 。 每 个 节点 维护 一 个 指向 它 的 元 素 的 引用 ， 并 含 一 个 或 多 个 指向 相 邻 节点 的 引 
用 ， 这 样 做 的 目的 是 为 了 集中 地 表示 序列 的 线性 顺序 。 

我 们 将 对 比 基 于 数组 序列 和 链表 的 优 缺 点 。 通 过 数字 索引 上 左 无 法 有 效 地 访问 链表 中 的 元 
素 ， 而 仅仅 通过 检查 一 个 节点 ， 我 们 也 无 法 判断 出 这 个 节点 到 底 是 表 中 的 第 2 个 、 第 5 个 还 
是 第 20 个 元 素 。 然 而 ， 链 表 避 免 了 上 面 提 到 的 基于 数组 序列 的 3 个 缺点 。 


7.1 单 向 链表 

单 向 链表 最 简单 的 实现 形式 就 是 由 多 个 节点 的 集合 共同 构成 一 个 线性 序列 。 每 个 节点 存 
储 一 个 对 象 的 引用 ， 这 个 引用 指向 序列 中 的 一 个 元 素 ， 即 存储 指向 列表 中 的 下 一 个 节点 ， 如 
图 7-1 和 图 7-2 所 示 。 
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图 7-1 节点 实例 的 示例 ， 用 于 构成 单 向 链表 的 一 部 分 。 这 个 节点 含有 两 个 成 员 : 元 素 成 员 
引用 一 个 任意 的 对 象 ， 该 对 象 是 序列 中 的 一 个 元 素 (在 这 个 例子 中 ， 序 列 指 的 是 机 
场 节点 MSP); 指针 域 成 员 指向 单 向 链表 的 后 继 节 点 〈 如 果 没有 后 继 节点 ， 则 为 空 


链表 的 第 一 个 和 最 后 一 个 节点 分 别 为 列表 的 头 节点 和 尾 节 点 。 从 头 节点 开始 ， 通 过 每 个 
节点 的 “next” 引 用 ， 可 以 从 一 个 节点 移动 到 另 一 个 节点 ， 从 而 最 终 到 达 列 表 的 尾 节 点 。 知 
当前 节点 的 “next” 引 用 指向 空 时 ， 我 们 可 以 确定 该 节点 为 尾 节 点 。 这 个 过 程 通常 叫 作 遍 历 
链表 。 由 于 一 个 节点 的 “next” 引 用 可 以 被 视 为 指向 下 一 个 节点 的 链接 或 者 指针 ,遍历 列表 
的 过 程 也 称 为 链接 跳跃 或 指针 跳跃 。 
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图 7-2 元 素 是 用 字符 串 表示 机 场 代码 的 单 向 链表 示例 。 列 表 实 例 中 维护 了 一 个 叫 作 头 
节点 (head) 的 成 员 ， 它 标识 列表 的 第 一 个 节点 。 在 某 些 应 用 程序 中 ， 另 有 一 个 
叫 作 尾 节点 (tail) 的 成 员 ， 它 标识 列表 的 最 后 一 个 节点 。 空 对 象 被 表示 为 人 


链表 在 内 存 中 的 表示 依赖 于 许多 对 象 的 协作 。 每 个 节点 被 表示 为 唯一 的 对 象 ， 该 对 象 
实例 存储 着 指向 其 元 素 成 员 的 引用 和 指向 下 一 个 节点 的 引用 (或 者 为 空 )。 男 一 个 对 象 用 于 
代表 整个 链表 。 链 表 实 例 至 少 必 须 包 括 一 个 指向 链表 头 节 点 的 引用 。 没 有 一 个 明确 的 头 的 引 
用 ,就 没有 办 法 定位 节点 (或 间接 地 定位 其 他 任何 节点 )。 没 有 必要 直接 存储 一 个 指向 列表 
尾 节点 的 引用 ， 因 为 尾 节 点 可 以 通过 从 头 节点 开始 遍历 链表 中 的 其 余 节 点 来 定位 。 不 管 怎 
样 ， 显 式 地 保存 一 个 指向 尾 节 点 的 引用 ， 是 避免 为 访问 尾 节点 而 进行 链表 遍历 的 常用 方法 。 
类 做 地 ， 链 表 实 例 保 存 一 定数 量 的 节点 总 数 (通常 称 为 列表 的 大 小 ) 也 是 比较 常见 的 ， 这 样 
就 可 以 避免 为 计算 链表 中 的 节点 数量 而 需要 遍历 整个 链表 。 

在 本 章 的 其 余部 分 ， 我 们 将 继续 把 节点 称 为 “对 象 "， 而 把 每 个 节点 指向 “ next” 节 点 
的 引用 称 为 “指针 ”。 但 是 ， 为 简单 起 见 ， 我 们 将 一 个 节点 的 元 素 直接 散人 该 节点 的 结构 中 ， 
尽管 元 素 实际 上 是 一 个 独立 的 对 象 。 对 此 ， 图 7-3 以 更 简洁 的 方式 展示 了 图 7-2 的 链表 。 





head tail 


图 7-3 单 向 链表 的 一 个 简洁 示例 ， 元 素 典 入 在 节点 中 (而 不 是 更 精确 地 画 为 外 部 对 象 的 引用 ) 


在 单 向 链表 的 头 部 插入 一 个 元 素 

单 向 链表 的 一 个 重要 属性 是 没有 预先 确定 的 大 小 ， 它 的 占用 空间 取决 于 当前 元 素 的 个 
数 。 当 使 用 一 个 单 向 链表 时 ,我 们 可 以 很 容易 地 在 链表 的 头 部 插入 一 个 元 素 ， 如 图 7-4 所 示 ， 
伪 代 码 描 述 如 代码 段 7-1 所 示 。 其 基本 思想 是 创建 一 个 新 的 节点 ， 将 新 节点 的 元 素 域 设置 为 
新 元 素 ， 将 该 节点 的 “next” 指 针 指 向 当前 的 头 节点 ， 然 后 设置 列表 的 头 指针 指向 新 节点 。 


代码 段 7-1 在 单 向 链表 上 头 部 插入 一 个 元 素 。 注 意 ， 要 在 为 新 节点 分 配 L.head 变量 之 前 设置 新 节点 
的 “next” 指 针 。 如 果 初 始 列 表 为 空 ( 即 L.head 为 空 )， 那 么 就 将 新 节点 的 “ next” 指 
针 指 向 空 (None ) 
Algorithm add_first(L,e): 
newest = Node(e) [create new node instance storing reference to element e] 
newest.next = L.head {set new node's next to reference the old head node} 


L.head — newest [set variable head to reference the new node] 
L.size = L.size 4- 1 [increment the node count] 


在 单 向 链表 的 尾部 插入 一 个 元 素 

只 要 保存 了 尾 节 点 的 引用 (指向 尾 节点 的 指针 )， 就 可 以 很 容易 地 在 链表 的 尾部 插入 一 个 元 
素 ， 如 图 7-5 所 示 。 在 这 种 情况 下 ， 创 建 一 个 新 的 节点 ， 将 其 “next” 指 针 设置 为 空 ， 并 设置 尾 
节点 的 “next” 指 针 指 向 新 节点 ， 然 后 更 新 尾 指 针 指向 新 节点 ， 伪 代码 描述 如 代码 段 7-2 所 示 。 
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©) 重新 设置 头 指针 后 
图 7-4 在 单 向 链表 的 头 部 插入 一 个 元 素 
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b) 创建 一 个 新 节点 之 后 


tail newest 





c) 尾 指针 重新 设置 之 后 
图 7-5 在 单 向 链表 的 尾部 插入 一 个 元 素 


注意 ， 必 须 在 c) 中 设置 尾 指针 变量 指向 新 的 节点 之 前 设置 b) 中 尾部 的 “next” 指 针 。 


代码 段 7-2 ”在 单 向 链表 的 尾部 插入 一 个 新 的 节点 。 注 意 ， 在 设置 尾 指针 指向 新 节点 之 前 ， 设 置 尾 节 
点 的 “ next” 指 针 指 向 原来 的 尾 节点 。 当 向 一 个 空 链表 中 插入 新 节点 时 ， 需 要 对 这 段 代 
码 进行 一 定 的 调整 ， 因 为 空 链 表 不 存在 尾 节 点 
Algorithm add_last(L,e): 


newest = Node(e) {create new node instance storing reference to element e] 


newest.next — None {set new node's next to reference the None object} 
L.tail.next — newest {make old tail node point to new node} 
L.tail — newest {set variable tail to reference the new node} 
L.size = L.size+ 1 {increment the node count} 


从 单 向 链表 中 删除 一 个 元 素 
从 单 向 链表 的 头 部 删除 一 个 元 素 ， 基 本 上 是 在 头 部 插入 一 个 元 素 的 反 向 操作 。 这 个 操作 
的 详细 过 程 如 图 7-6 和 代码 段 7-3 所 示 。 
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a) 删除 之 前 






head 


c) 


图 7-6 在 单 向 链表 的 头 部 删除 一 个 节点 


代码 段 7-3 ”在 单 向 链表 的 头 部 删除 一 个 节点 
Algorithm remove-first(L): 
if L.head is None then 
Indicate an error: the list is empty. 
L.head — L.head.next {make head point to next node (or None)j 
L.size = L.size— 1 {decrement the node count} 


不 幸 的 是 ， 即 使 保存 了 一 个 直接 指向 列表 尾 节点 的 尾 指针 ， 我 们 也 不 能 轻易 地 删除 单 向 
链表 的 尾 节点 。 为 了 删除 链表 的 最 后 一 个 节点 ， 我 们 必须 能 够 访问 尾 节 点 之 前 的 节点 。 但 是 
我 们 无 法 通过 尾 节点 的 “ next” 指 针 找 到 尾 节 点 的 前 一 个 节点 ,访问 此 节点 的 唯一 方法 是 从 
链表 的 头 部 开始 遍历 整个 链表 。 但 是 这 样 序列 遍历 的 操作 需要 花费 很 长 的 时 间 ， 如 果 想 要 有 
效 地 实现 此 操作 ， 需 要 实现 双向 列表 ( 见 7.3 节 )。 


7.1.1 用 单 向 链表 实现 栈 


在 这 一 部 分 ， 我 们 将 通过 给 出 一 个 完整 栈 ADT 的 Python 实现 来 说 明 单 向 链表 的 使 用 
( 见 6.1 节 )。 设计 这 样 的 实现 ， 我 们 需要 决定 用 链表 的 头 部 或 尾部 来 实现 栈 顶 。 最 好 的 选择 
显而易见 : 因为 只 有 在 头 部 ,我 们 才能 在 一 个 常数 时 间 内 有 效 地 插入 和 删除 元 素 。 由 于 所 有 
栈 操作 都 会 影响 栈 顶 ， 因 此 规定 栈 顶 在 链表 的 头 部 。 

为 了 表示 列表 中 的 单个 节点 ， 我 们 创建 了 一 个 轻 量 级 _Node 类 。 这 个 类 将 永远 不 会 直 
接 暴 露 给 栈 类 的 用 户 ， 所 以 被 正式 定义 为 非 公有 的 、 最 终 的 LinkedStack 2585 ip £28 ( 见 
2.5.1 节 )。 代 码 段 7-4 展示 了 _Node 类 的 定义 。 


代码 段 7-4 ”一 个 单 向 链表 的 轻 量 级 _Node 类 


class _Node: 
""" Lightweight, nonpublic class for storing a singly linked node." "" 
_-slots__ = ' element', ' next' # streamline memory usage 
def . init... (self, element, next): # initialize node's fields 
self. element — element # reference to user's element 


self. next — next # reference to next node 
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一 个 节点 只 有 两 个 实例 变量 :_element 和 next (元 素 引 用 和 指向 下 一 个 节点 的 引用 )， 为 
了 提高 内 存 的 利用 率 ， 我 们 专门 定义 了 — slots (42.5.1 节 )， 因 为 一 个 单 向 链表 中 可 能 
多 个 节点 实例 。 Node 类 的 构造 函数 是 为 了 方便 而 设计 的 ， 它 允许 为 每 个 新 创建 的 节点 赋值 。 

代码 段 7-5 和 代码 段 7-6 给 出 了 LinkedStack 类 的 完整 实现 。 每 个 栈 实例 都 维护 两 个 变 
量 。 头 指针 指 回 链 表 的 头 节 点 〈 如 果 栈 为 室 ， 这 个 指针 指向 空 ) 。 我 们 需要 用 变量 size 持续 
追踪 当前 元 素 的 数量 ， 和 否则 ， 当 需要 返回 栈 的 大 小 时 ， 必 须 通 过 遍历 整个 列表 来 计算 元 素 的 
数量 。 

将 元 素 压 栈 (push) 的 实现 与 代码 段 7-1 所 给 出 的 在 单 向 链表 头 部 插入 一 个 元 素 的 伪 代 
码 基 本 一 致 。 问 栈 顶 放 入 一 个 新 的 元 素 e 时 ， 可 以 通过 调用 _Node 类 的 构造 函数 来 完成 链 
接 结 构 的 必要 改变 。 代 码 如 下 : 


self. head = self. Node(e, self..head)  # create and link a new node 


注意 ， 新 节点 的 _next 指针 域 被 设置 为 当前 的 栈 顶 节点 ， 然 后 将 头 指针 Cself. head) fü 
问 新 节点 。 


代码 段 7-5 单 向 链表 实现 栈 ADT ( 后 续 内 容 见 代码 段 7-6 ) 


class LinkedStack: 


I 

2  """LIFO Stack implementation using a singly linked list for storage." "" 

3 

4 ## 一 一 一 -一 -一 -一 一 -一 -一 一 nested -Node class -一 一 一 一 一 一 一 一 一 - 

5 class Node: 

6 """Lightweight, nonpublic class for storing a singly linked node." "" 

T --slots-- = ' element', ' next' # streamline memory usage 
8 

9 def . init... (self, element, next): # initialize node's fields 

10 self. element = element #: reference to user's element 
11 self. next — next # reference to next node 

12 

13 -—— stack methods ------—--------+--------------- 

14 def init. (self): 

15 """ Create an empty stack." "" 

16 self. head — None # reference to the head node 
17 self. size — 0 # number of stack elements 
18 

19 def | len. (self): 
20 """ Return the number of elements in the stack." "" 
21 return self. size 
22 
23 def is empty(self): 
24 """Return True if the stack is empty." "" 
25 return self._size == 0 
26 
27 def push(self, e): 
28 """ Add element e to the top of the stack." "" 
29 self. head = self. Node(e, self. head)  # create and link a new node 
30 self. size --— 1 


32 def top(self): 


33 """ Return (but do not remove) the element at the top of the stack. 
34 

35 Raise Empty exception if the stack is empty. 

36 tie 

37 if self.is empty(): 

38 raise Empty('Stack is empty!) 


39 return self. head. element #: top of stack is at head of list 
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KAGE 7-6 单 向 链表 实现 栈 ADT ( 接 代码 段 7-5 ) 


40 def pop(self): 


41 """ Remove and return the element from the top of the stack (i.e., LIFO). 
42 

43 Raise Empty exception if the stack is empty. 

44 Usu» 

45 if self.is empty( ): 

46 raise Empty('Stack is empty!) 

47 answer — self. head. element 

48 self. head — self. head. next # bypass the former top node 
49 self. size —— 

50 return answer 


实现 top 方法 时 ， 目 标 是 返回 栈 项 部 的 元 素 。 当 栈 为 空 时 ， 我 们 会 抛 出 Empty 异常 ， 这 
个 异常 在 第 6 章 代码 段 6-1 中 已 经 定义 过 了 。 当 栈 不 为 空 时 ， 头 指针 (self. head) 指向 链表 
的 第 一 个 节点 ， 栈 项 元 素 可 以 表示 为 self. head. element. 

JLK HIRERE (pop) 的 实现 与 代码 段 7-3 中 的 伪 代 码 基 本 一 致 。 我 们 利用 一 个 本 地 的 
指针 指向 要 删除 的 节点 中 所 保存 的 成 员 元 素 (element)， 并 将 该 元 素 返回 给 调用 者 pop。 

# 7-1 给 出 了 LinkedStack 操作 的 分 析 。 可 以 看 到 ， 所 有 方法 在 最 坏 情 况 下 都 是 在 常数 
时 间 内 完成 的 。 这 与 表 6-2 给 出 的 数组 栈 的 摊 销 边界 形成 了 对 比 。 


表 7-1 链 式 栈 实现 的 性 能 ， 所 有 边界 都 是 在 最 坏 情 况 下 确定 的 ， 空 间 利用 率 为 O(n)。 其 


中 n 为 当前 栈 中 元 素 的 个 数 
操作 运行 时 间 
S.push(e) O(1) 
S.pop() O(1) 
S.top() O(1) 
len(S) O(1) 
S.is empty() O(1) 


7.1.2. 用 单 向 链表 实现 队列 


正如 用 单 向 链表 实现 栈 ADT 一 样 ， 我 们 可 以 用 单 向 链表 实现 队列 ADT， 且 所 有 操作 
支持 最 坏 情况 的 时 间 为 0(1)。 由 于 需要 对 队列 的 两 端 执 行 操作 ， 我 们 显 式 地 为 每 个 队列 维 
护 一 个 _head 和 一 个 tail 指针 作为 实例 变量 。 一 种 很 自然 的 做 法 是 ， 将 队列 的 前 端 和 链表 
的 头 部 对 应 ， 队 列 的 后 端 与 链表 的 尾部 对 应 ， 因 为 必须 使 元 素 从 队列 的 尾部 进入 队列 ， 从 
队列 的 头 部 出 队列 《前 面 曾 提 到 ， 我 们 很 难 高 效 地 从 单 向 链表 的 尾部 删除 元 素 )。 链 表 队 列 
(LinkedQueue) 类 的 实现 如 代码 段 7-7 和 代码 段 7-8 所 示 。 


代码 段 7-7 用 单 向 链表 实现 队列 ADT. (后 续 内 容 见 代码 段 7-8 ) 


class LinkedQueue: 


l 

2  """FIFO queue implementation using a singly linked list for storage." "" 
3 

4 class .Node: 

5 """ Lightweight, nonpublic class for storing a singly linked node." "" 

6 (omitted here; identical to that of LinkedStack. Node) 

- 

8 def init. (self): 

9 """ Create an empty queue." "" 
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10 self. head — None 

11 self. tail — None 

12 self. size — 0 # number of queue elements 
13 

14 def . len. (self): 

15 """ Return the number of elements in the queue." "" 
16 return self. size 

17 

I8 — def is empty(self): 

19 """ Return True if the queue is empty." "' 

20 return self. size —— 0 


22 def first(self): 


23 """Return (but do not remove) the element at the front of the queue." "" 
24 if self.is empty(): 

25 raise Empty('Queue is empty!) 

26 return self. head. element # front aligned with head of list 


代码 段 7-8 用 单 向 链表 实现 队列 ADT ( 接 代码 段 7-7 ) 
27 def dequeue(self): 


28 """ Remove and return the first element of the queue (i.e., FIFO). 
30 
30 Raise Empty exception if the queue is empty 


32 if self.is empty( ): 


33 raise Empty('Queue is empty!) 

34 answer = self._head._element 

35 self. head = self. head. next 

36 self. size —— 1 

37 if self.is empty(): # special case as queue is empty 
38 self. tail — None # removed head had been the tail 
39 return answer 

40 

4| def enqueue(self, e): 

42 """ Add an element to the back of queue." " 

43 newest — self. Node(e, None) 4 node will be new tail node 

44 if self.is empty( ): 

45 self. head — newest # special case: previously empty 
46 else: 

47 self. tail. next — newest 

48 self. tail — newest # update reference to tail node 
49 self. size += 1 


用 单 向 链表 实现 队列 的 很 多 方面 和 用 LinkedStack 2$ SC PAE HF AAA, "XS Node 类 
的 定义 。 链 表 队 列 的 LinkedQueue 的 实现 类 似 于 LinkedStack 的 出 栈 ， 即 删除 队列 的 头 部 
节点 ， 但 也 有 一 些 细微 的 差别 。 因 为 队列 必须 准确 地 维护 尾部 的 引用 ( 栈 的 实现 中 没有 
维持 这 样 的 变量 )。 通 常 ， 在 头 部 的 操作 对 尾部 不 产生 影响 。 但 在 一 个 队列 中 调用 元 素 出 
队列 操作 时 ， 我 们 要 同时 删除 列表 的 尾部 。 同 时 ， 为 了 确保 一 致 性 ， 还 要 设置 self tail 
为 None。 

在 LinedQueue 的 实现 问题 中 ， 有 一 个 相似 的 复杂 操作 。 最 新 的 节点 往往 会 成 为 新 的 链 
表 尾 部 ， 然 而 当 这 个 新 节点 是 列表 中 的 唯一 节点 时 ， 就 会 有 所 不 同 。 在 这 种 情况 下 ， 该 节点 
也 将 变 成 新 的 链表 头 部 ; 否则 ， 新 的 节点 必须 被 立即 链接 到 现 有 的 尾部 节点 之 后 。 

在 性 能 方面 ，LinkedQueue 与 LinkedStack 类 似 ， 所 有 操作 在 最 坏 情况 下 运行 的 时 间 为 
常数 ， 而 空间 使 用 率 与 当前 元 素数 量 呈 线性 关系 。 
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7.2 循环 链表 


在 6.2.2 节 中 ,我 们 引入 了 “循环 ”数组 的 概念 ， 并 且说 明了 如 何 用 其 实现 队列 ADT. 
在 实现 中 ， 循 环 数组 的 概念 是 人 为 定义 的 ， 因 此 ， 在 数组 内 部 自身 的 表示 中 没有 任何 循环 结 
构 。 这 是 我 们 在 使 用 模 运 算 中 ， 将 一 个 索引 从 最 后 一 个 位 置 “推进 ”到 第 一 个 位 置 时 所 提供 
的 一 个 抽象 概念 。 

在 链表 中 ， 我 们 可 以 使 链表 的 尾部 节点 的 “next” 指 针 指 向 链表 的 头 部 ， 由 此 来 获得 一 
个 更 切实 际 的 循环 链表 的 概念 。 我 们 称 这 种 结构 为 循环 链表 ， 如 图 7-7 所 示 。 





图 7-7 一 个 具有 循环 结构 的 单 向 链表 示例 


与 标准 的 链表 相 比 ， 循 环 链表 为 循环 数据 集 提供 了 一 个 更 通用 的 模型 ， 即 标准 链表 的 开 
始 和 结束 没有 任何 特定 的 概念 。 图 7-8 给 出 了 一 个 相对 图 7-7 中 循环 列表 的 结构 更 对 称 的 示 
意图 。 
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图 7-8 一 个 用 “current ”指针 标明 引用 一 个 选 定 的 节点 的 循环 链表 的 例子 


我 们 也 可 以 使 用 其 他 类 似 于 图 7-8 所 示 的 环形 视图 ， 例 如 ， 描 述 美国 芝加哥 环线 上 的 火 
车 站 点 顺序 或 选手 在 比赛 中 的 轮流 顺序 。 虽 然 一 个 循环 链表 可 能 并 没有 开始 或 者 结束 节点 ， 
但 是 必须 为 一 个 特定 的 节点 维护 一 个 引用 ， 这 样 才能 使 用 该 链表 。 我 们 采用 “current ”标识 
符 来 表示 一 个 指定 的 节点 。 通 过 设置 current=current,next， 我 们 可 以 有 效 地 遍历 链表 中 的 各 
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7.2.1 轮转 调度 


为 了 说 明 循 环 链表 的 使 用 ， 我 们 来 讨论 一 个 循环 调度 程序 ， 在 这 个 调度 程序 中 ， 以 循 
环 的 方式 迭代 地 遍历 一 个 元 素 的 集合 ， 并 通过 执行 一 个 给 定 的 动作 为 集合 中 的 每 个 元 素 进行 
“服务 ”。 例 如 ， 使 用 这 种 调度 程序 ， 可 以 公平 地 分 配 那些 必须 为 一 个 用 户 群 所 共享 的 资源 。 
比如 ， 循 环 调度 经 常用 于 为 同一 计算 机 上 多 个 并 发 运行 的 应 用 程序 分 配 CPU 时 间 片 。 

使 用 普通 队列 ADT， 在 队列 Q 上 反复 执行 以 下 步骤 ( 见 图 7-9 )， 这 样 就 可 以 实现 循环 
调度 程序 : 


1. e = Q.dequeue() 
2. Service element e 
3. Q.enqueue(e) 
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1. 下 一 元 素 出 队 2.“ 服 务 ” 下 一 元 素 3. 所 “服务 ”的 


元 素 入 队 





图 7-9 使 用 队列 实现 循环 调度 的 三 个 迭代 步 又 


如 果 用 7.1.2 节 介 绍 的 LinkedQueue 类 来 实现 这 个 应 用 程序 ， 则 没有 必要 急于 对 那 种 在 
结束 不 久 后 就 将 同一 元 素 插 人 队列 的 出 队列 操作 进行 合并 处 理 。 从 列表 中 删除 一 个 节点 ， 相 
应 地 要 适当 调整 列表 的 头 并 缩减 列表 的 大 小 ; 对 应 地 ， 当 创建 一 个 新 的 节点 时 ， 应 将 其 插入 
列表 的 尾部 并 且 增 加 列表 的 大 小 。 

如 果 使 用 一 个 循环 列表 ， 有 效 地 将 一 个 项 目 从 队列 头 部 转换 成 队列 尾部 ， 可 以 通过 访问 
标记 队列 边界 的 引用 来 实现 。 接 下 来 ,我 们 会 给 出 一 个 用 于 支持 整个 队列 ADT 的 循环 队列 
类 的 实现 ， 并 介绍 一 个 附加 的 方法 rotate()， 该 方法 用 于 将 队列 中 的 第 一 个 元 素 移动 到 队列 
尾部 (在 python 模块 集合 的 双 端 队列 类 中 ， 支 持 一 个 类 似 的 方法 ,参见 表 6-4 )。 使 用 这 个 
操作 循环 调度 程序 ， 可 以 通过 重复 执行 以 下 步骤 有 效 地 实现 循环 调度 算法 : 

1 ) Service element Q.front(). 

2 ) Q.rotate(). 


7.2.2 用 循环 链表 实现 队列 


为 了 采用 循环 链表 实现 队列 ADT， 我 们 用 图 7-7 给 出 直观 示意 : 队列 有 一 个 头 部 和 一 
个 尾部 ， 但 是 尾部 的 “next” 指 针 指 向 头 部 的 。 对 于 这 样 一 个 模型 ， 我 们 显然 不 需要 同时 保 
存 指 向 头 部 和 尾部 的 引用 (指针 )。 只 要 保存 一 个 指向 尾部 的 引用 (指针 )， 我 们 就 总 能 通过 
尾部 的 “next” 引 用 找到 头 部 。 

代码 段 7-9 和 代码 段 7-10 给 出 了 基于 这 个 模型 实现 的 循环 队列 类 。 该 类 只 有 两 个 实例 
变量 : 一 个 是 _tail， 用 于 指向 尾部 节点 的 引用 ( 当 队 列 为 空 时 指向 None); 另 一 个 是 size, 
用 于 记录 当前 队列 中 元 素 的 数量 。 当 一 个 操作 涉及 队列 的 头 部 时 ,我们 用 self，tail._next 标 
识 队 列 的 头 部 。 当 调用 enqueue 操作 时 ， 一 个 新 的 节点 将 被 插入 队列 的 尾部 与 当前 头 部 之 
间 ， 然 后 这 个 新 节点 变 成 了 新 的 尾部 。 

除了 传统 的 队列 操作 ，CircularQueue 类 还 支持 一 个 循环 的 方法 ， 该 方法 可 以 更 有 效 地 
实现 删除 队 首 的 元 素 以 及 将 该 元 素 插 人 队列 尾部 这 两 个 操作 的 合并 处 理 。 用 循环 来 表示 ， 简 
单 地 设 self. tail=self tail.，next， 以 使 原来 的 头 部 变 成 新 的 尾部 。( 原 来 头 部 的 后 继 节点 成 为 
新 的 头 部 ) 


代码 段 7-9 ”用 循环 链表 存储 实现 循环 队列 类 (后 续 代 码 段 7-10 ) 


class CircularQueue: 
""" Queue implementation using circularly linked list for storage." "" 


class _Node: 


l 
2 
3 
4 
5 """ Lightweight, nonpublic class for storing a singly linked node." ”” 
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6 (omitted here; identical to that of LinkedStack. Node) 

7 

8 def init. (self): 

9 """ Create an empty queue." "" 

0 self. tail — None # will represent tail of queue 
11 self. size — 0 # number of queue elements 


I3 def len. (self): 
14 """ Return the number of elements in the queue." "" 
5 return self. size 


7 def is empty(self): 
8 """Return True if the queue is empty." "" 
19 return self. size —— 0 





RAGE 7-10 ”用 循环 链表 存储 实现 循环 队列 类 ( 接 代码 段 7-9 ) 
20 def first(self): 


21 """ Return (but do not remove) the element at the front of the queue. 
?了 

23 Raise Empty exception if the queue is empty. 

24 VM 

25 if self.is empty( ): 

26 raise Empty('Queue is empty!) 

27 head — self. tail. next 

28 return head. element 

29 

30 def dequeue(self): 

31 """ Remove and return the first element of the queue (i.e., FIFO). 

32 

33 Raise Empty exception if the queue is empty. 

34 is 

35 if self.is empty( ): 

36 raise Empty('Queue is empty') 

3 oldhead = self. tail..next 

38 if self. size —— 1: # removing only element 

39 self. tail — None # queue becomes empty 

40 else: 

41 self. tail. next — oldhead. next # bypass the old head 

42 self. size —— 1 

43 return oldhead. element 

44 

45 def enqueue(self, e): 

46 """ Add an element to the back of queue." "" 

47 newest = self. Node(e, None) # node will be new tail node 
48 if self.is empty( ): 

49 newest. next — newest # initialize circularly 

50 else: 

51 newest. next — self. tail. next # new node points to head 
52 self. tail. next — newest # old tail points to new node 
53 self. tail — newest # new node becomes the tail 
54 self. size --— 1 

55 

56 def rotate(self): 

57 """ Rotate front element to the back of the queue." " " 

58 if self. size > 0: 

59 self. tail — self. tail. next # old head becomes new tail 


7.3 双向 链表 
在 单 向 链表 中 ， 每 个 节点 为 其 后 继 节点 维护 一 个 引用 。 我 们 已 经 说 明了 在 管理 一 个 序列 
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的 元 素 时 如 何 使 用 这 样 的 表示 方法 。 然 而 ， 单 向 链表 的 不 对 称 性 产生 了 一 些 限 制 。 在 7.1 节 
的 开头 ， 我 们 强调 过 可 以 有 效 地 向 一 个 单 向 链表 内 部 的 任意 位 置 插入 一 个 节点 ， 也 可 以 在 头 
部 轻松 地 删除 一 个 节点 , 但 是 不 能 有 效 地 删除 链表 尾部 的 节点 。 更 一 般 化 的 说 法 是 ， 如 果 仅 
给 定 链表 内 部 指向 任意 一 个 节点 的 引用 ， 我 们 很 难 有 效 地 删除 该 节点 ， 因 为 我 们 无 法 立即 确 
定 待 删除 节点 的 前 驱 节 点 (而且 删除 处 理 中 该 前 驱 节 点 需要 更 新 它 的 “next”3 引 用 )。 

为 了 提供 更 好 的 对 称 性 ， 我 们 定义 了 一 个 链表 ， 每 个 节点 都 维护 了 指向 其 先驱 节点 以 及 
后 继 节点 的 引用 。 这 样 的 结构 被 称 为 双向 链表 。 这 些 列表 支持 更 多 各 种 时 间 复 杂 度 为 0(1) 
的 更 新 操作 ， 这 些 更 新 操作 包括 在 列表 的 任意 位 置 插入 和 删除 节点 。 我 们 会 继续 用 “ next" 
表示 指向 当前 节点 的 后 继 节点 的 引用 ， 并 引入 “prev” 引 用 其 前 驱 节点 。 

头 哨 兵 和 尾 哨 兵 

在 操作 接近 一 个 双向 链表 的 边界 时 ， 为 了 避免 一 些 特殊 情况 ， 在 链表 的 两 端 都 追加 节 
点 是 很 有 用 处 的 : 在 列表 的 起 始 位 置 添加 关节 点 (header)， 在 列表 的 结尾 位 置 添加 尾 节 点 
( tailer)。 这 些 “ 特 定 ” 的 节点 被 称 为 哨兵 (或 保安 )。 这 些 节点 中 并 不 存储 主 序列 的 元 素 。 
图 7-10 中 给 出 了 一 个 带 哨 兵 的 双向 链表 。 


header ext next next _ next _ trailer 
TEEN EAEAN VRA TEET 





es | seis A 
prev prev prev prev 


图 7-10 用 一 个 使 用 header 和 tailer 哨兵 来 区 分 列表 的 端 部 的 双向 链表 表示 序列 | JFK, PVD, SFO | 


当 使 用 哨兵 节点 时 ， 一 个 空 链表 需要 初始 化 ， 使 头 节 点 的 “next” 域 指向 尾 节 点 ， 并 令 
尾 节 点 的 “prev” 域 指向 头 节点 。 哨 兵 节 点 的 剩余 域 是 无 关 紧 要 的 。 对 于 一 个 非 空 的 列表 ， 
头 节点 的 “next” 域 将 指向 一 个 序列 中 第 一 个 真正 包含 元 素 的 节点 ， 对 应 的 尾 节点 的 “prev” 
域 指向 这 个 序列 中 最 后 一 个 包含 元 素 的 节点 。 

使 用 哨兵 的 优点 

虽然 不 使 用 哨兵 节点 就 可 以 实现 双向 链表 (正如 7.1 节 中 的 单 向 链表 那样 )， 但 哨兵 只 占 
用 很 小 的 额外 空间 就 能 极 大 地 简化 操作 的 逻辑 。 最 明显 的 是 ， 头 和 尾 节点 从 来 不 改变 只 
改变 头 节 点 和 尾 节 点 之 间 的 节点 。 此 外 ， 可 以 用 统一 的 方式 处 理 所 有 插 人 节点 操作 ， 因 为 一 
个 新 节点 总 是 被 放 在 一 对 已 知 节点 之 间 。 类 似 地 ， 每 个 待 删除 的 元 素 都 是 确保 被 存储 在 前 后 
都 有 邻居 的 节点 中 的 。 

相 比 之 下 ， 回 顾 7.1.2 节 中 LinkedQueue 的 实现 (其 人 enqueue 方法 在 代码 段 7-8 中 给 
出 )， 一 个 新 节点 是 在 列表 的 尾部 进行 添加 的 。 然 而 ， 它 需要 设置 一 个 条 件 去 管理 向 空 列 表 
插入 节点 的 特例 情况 。 在 一 般 情 况 下 ， 新 节点 被 连接 在 列表 现在 的 尾部 之 后 。 但 当 插 入 空 列 
表 中 时 ， 不 存在 列表 的 尾部 ， 因 此 必须 重新 给 self. head 赋值 为 新 节点 的 引用 。 在 实现 中 ， 
使 用 哨兵 节点 可 以 消除 这 种 特例 的 处 理 ， 就 好 像 在 新 节点 之 前 总 是 有 一 个 已 存在 的 节点 。 

双 端 链表 的 插入 和 删除 

向 双向 链表 插入 节点 的 每 个 操作 都 将 发 生 在 两 个 已 有 节点 之 间 ， 如 图 7-11 所 示 。 例 如 ， 
当 一 个 新 元 素 被 插 在 序列 的 前 面 时 ， 我 们 可 以 简单 地 将 这 个 新 节点 插入 头 节点 和 当前 位 于 头 
节点 之 后 的 节点 之 间 ， 如 图 7-12 所 示 。 

图 7-13 所 示 的 是 和 搬入 相反 的 过 程 一 一 删除 节点 。 被 删除 节点 的 两 个 邻居 直接 相互 连 
接 起 来 ， 从 而 绕 过 被 删节 点 。 这 样 一 来 ， 该 节点 将 不 再 被 视 作 列表 的 一 部 分 ， 它 也 可 以 被 系 
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统 收回 。 由 于 用 了 哨兵 ， 可 以 使 用 相同 的 方法 实现 删除 序列 中 的 第 一 个 或 最 后 一 个 元 素 ， 因 
为 一 个 元 素 必 然 存储 在 位 于 某 两 个 已 知 节点 之 间 的 节点 上 。 


header trailer 


Le JFK] o 
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c ) 将 新 节点 和 相 邻 节点 链接 之 后 
图 7-11 在 带 有 头 、 尾 哨兵 的 双向 链表 中 添加 一 个 节点 


header trailer 





c ) 将 新 节点 与 相 邻 节点 链接 之 后 
图 7-12 在 带 有 头 和 尾 哨兵 的 双向 链表 序列 的 前 端 添加 一 个 元 素 . 


header trailer 





c) 删除 之 后 ( 和 垃圾 回收 ) 
图 7-13 ”从 双向 链表 中 删除 PVD 元 素 


7.3.1 双向 链表 的 基本 实现 


我 们 首先 给 出 一 个 双向 链 的 初步 实现 ， 这 个 实现 是 在 一 个 名 为 _DoublyLinkedBase 的 类 
中 定义 的 。 由 于 我 们 不 打算 为 一 般 应 用 提供 一 个 常规 的 公共 接口 ， 因 此 有 意 将 这 个 类 名 定义 
为 以 下 划 线 开头 。 我 们 会 看 到 链表 可 以 支持 一 般 在 最 坏 情况 下 时 间 复 杂 度 为 0(1) 的 插入 和 


178 BIE 


删除 ， 但 这 仅 限 于 当 一 个 操作 的 位 置 可 以 被 简单 地 识别 出 来 的 情况 。 对 于 基于 数组 的 序列 ， 
用 整数 作为 索引 是 描述 序列 中 某 个 位 置 的 一 种 便利 之 法 。 然 而 ， 当 没有 给 出 一 种 有 效 的 方法 
来 查找 一 个 链表 中 的 第 7 个 元 素 时 ， 索 引 并 不 是 合适 的 方法 ， 因 为 这 种 方法 将 需要 遍历 链表 
的 一 部 分 。 

当 处 理 一 个 链表 时 ， 描 述 一 个 操作 的 位 置 最 直接 的 方法 是 找到 与 这 个 列表 相关 联 的 节 
点 。 但 是 ， 我 们 倾向 于 将 数据 结构 的 内 部 处 理 封装 起 来 ， 从 而 避免 用 户 直接 访问 到 列表 的 
节点 。 在 本 章 的 剩余 部 分 ， 我 们 将 开发 两 个 从 _DoublyLinkedBase 类 继承 而 来 的 公有 类 ， 从 
而 提供 更 一 致 的 概念 。 尤 其 是 在 7.3.2 节 中 ， 我 们 将 提供 一 个 LinkedDeque 类 ， 用 于 实现 在 
6.3 节 中 介绍 的 双 头 队列 ADT。 这 个 类 只 支持 在 队列 末端 的 操作 ， 所 以 用 户 不 需要 查找 其 在 
内 部 列表 中 的 位 置 。 在 7.4 节 中 ， 我 们 将 引入 一 个 新 的 概念 PositionalList， 这 个 类 提供 一 个 
公共 接口 ， 以 允许 从 一 个 列表 中 任意 插入 和 删除 节点 。 

低级 _DoublyLinkedBase 类 使 用 一 个 非 公 有 的 节点 类 _Node， 这 个 非 公 有 类 类 似 于 一 个 
单 向 链表 。 如 代码 段 7-4 给 出 的 ， 这 个 双向 链表 的 版 本 除了 包括 prev 属性 ， 还 包含 _next 
和 element 属性 ， 如 代码 段 7-11 所 示 。 


代码 段 7-11 用 于 双向 链表 的 Python Node 类 


class _Node: 
""" Lightweight, nonpublic class for storing a doubly linked node." "" 
--slots.. = ' element', ' prev', ' next' # streamline memory 
def | init. (self, element, prev, next): # initialize node's fields 
self. element — element # user's element 
self._prev = prev # previous node reference 
self. next — next 4 next node reference 


_DoublyLinkBase 类 中 定义 的 其 余 内 容 在 代码 段 7-12 中 给 出 。 构 造 函 数 实例 化 两 个 哨 
兵 节 点 并 将 这 两 个 节点 直接 链接 。 我 们 维护 了 一 个 _size 成 员 以 及 公有 成 员 len Filis_ 
empty， 以 使 这 些 行 为 可 以 直接 被 子 类 继承 。 


代码 段 7-12 ”管理 双向 链表 的 基本 类 


class DoublyLinkedBase: 
""" A base class providing a doubly linked list representation." "” 


1 

2 

3 

4 class Node: 
5 """ Lightweight, nonpublic class for storing a doubly linked node." "" 
6 (omitted here; see previous code fragment) 


def . init. (self): 

9 """ Create an empty list." "" 

10 self. header — self. Node(None, None, None) 
11 self. trailer — self. Node(None, None, None) 


12 self. header. next = self. trailer # trailer is after header 
13 self. trailer. prev = self. header # header is before trailer 
14 self. size — 0 # number of elements 
15 

16 def . len. (self): 

17 """ Return the number of elements in the list." "" 

18 return self. size 


20 def is empty(self): 
21 """ Return True if list is empty." "" 
22 return self. size —— 0 
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23 

24 def insert between(self, e, predecessor, successor): 

25 """ Add element e between two existing nodes and return new node." "" 
26 newest = self. Node(e, predecessor, successor) # linked to neighbors 
27 predecessor. next — newest 

28 Successor..prev = newest 

29 self. size += 1 

30 return newest 


32 def delete node(self, node): 


33 """ Delete nonsentinel node from the list and return its element." "" 

34 predecessor — node..prev 

35 successor — node. next 

36 predecessor. next = successor 

37 Successor. prev = predecessor 

38 self. size —— 1 

39 element — node. element # record deleted element 
40 node. prev = node._next = node. element = None # deprecate node 
41 return element # return deleted element 


这 个 类 的 其 他 两 个 方法 是 私有 的 应 用 程序 ， 即 insert between 和 delete node。 这 些 方 
法 分 别 为 插入 和 删除 提供 通用 的 支持 ， 但 需要 以 一 个 或 多 个 节点 的 引用 作为 参数 。_insert_ 
between 方法 是 根据 图 7-11 所 示 的 算法 模型 化 实现 的 。 该 方法 创建 一 个 新 节点 ， 节 点 字段 
初始 化 链接 到 指定 的 邻近 节点 ， 然 后 邻近 节点 的 字段 要 进行 更 新 ， 以 获得 最 新 节点 的 相关 信 
息 。 为 后 继 处 理 方便 ， 这 个 方法 返回 新 创建 的 节点 的 引用 。 

_delete node 方法 是 根据 图 7-13 所 示 的 算法 模块 化 进行 实现 的 。 与 被 删除 节点 相 邻 的 
两 个 点 ， 直 接 相 链接 ， 从 而 使 列表 绕 过 这 个 被 删除 节点 ， 作 为 一 种 形式 ， 我 们 故意 重新 设置 
被 删除 节点 的 _prev、_next 和 element 域 为 空 (在 记录 要 返回 的 元 素 之 后 )。 虽 然 被 删除 的 
节点 会 被 列表 的 其 余部 分 忽略 ， 但 设置 该 节点 的 域 为 none 是 有 利 的 ， 这 样 一 来 ， 该 节点 与 
其 他 节点 不 必要 的 链接 和 存储 元 素 将 会 被 消除 ， 从 而 帮助 Python 进行 垃圾 回收 。 我 们 还 将 
依赖 这 个 配置 识别 因 不 再 是 列表 的 一 部 分 而 “被 弃 用 ”的 节点 。 


7.3.2 ”用 双向 链表 实现 双 端 队列 


6.3 节 中 介绍 了 双 端 队列 ADT。 由 于 偶尔 需要 调整 数组 的 大 小 ， 我 们 基于 数组 实现 的 所 
有 操作 都 在 平均 O(1) 的 时 间 复 杂 度 下 得 以 完成 。 在 一 个 基于 双向 链表 的 实现 中 ,我 们 能 够 
在 最 坏 情 况 下 以 时 间 复 杂 度 为 O(1) 完成 双 端 队列 的 所 有 操作 。 

代码 段 7-13 给 出 了 LinkedDeque 类 的 实现 ， 它 继承 自前 一 节 中 介绍 的 双 端 队列 
_DoublyLinkedBase 类 。 由 于 LinkedDeque 类 中 的 一 系列 继承 方法 就 可 以 初始 化 一 个 新 的 实 
例 ， 所 以 我 们 不 再 提供 一 个 明确 的 方法 来 初始 化 链 式 队列 类 。 我 们 还 借助 于 _len A is_ 
empty 等 继承 而 得 的 方法 来 满足 双 端 队列 ADT 的 要 求 。 


代码 段 7-13 ”从 继承 双向 链 基 类 而 实现 的 链 式 双 端 队列 类 


| class LinkedDeque(. DoublyLinkedBase): # note the use of inheritance 
2  """Double-ended queue implementation based on a doubly linked list." "" 

4 def first(self): 

5 """Return (but do not remove) the element at the front of the deque." "" 
6 if self.is empty(): 


7 raise Empty("Deque is empty") 
8 return self. header. next. element # real item just after header 
9 
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10 def last(self): 
11 """ Return (but do not remove) the element at the back of the deque." "" 


12 if self.is empty(): 

13 raise Empty("Deque is empty") 

14 return self. trailer. prev. element & real item just before trailer 
15 

16 def insert first(self, e): 

17 """ Add an element to the front of the deque." "" 

18 self. insert between(e, self. header, self. header. next) # after header 


20 def insert last(self, e): 
21 """ Add an element to the back of the deque." "" 
22 self. insert. between(e, self. trailer. prev, self. trailer)  # before trailer 


24 def delete first(self): 


25 """ Remove and return the element from the front of the deque. 

26 

27 Raise Empty exception if the deque is empty. 

38 asi 

29 if self.is empty(): 

30 raise Empty("Deque is empty") 

31 return self. delete. node(self. header. next) # use inherited method 
32 

33 def delete_last(self): 

34 """ Remove and return the element from the back of the deque. 

35 

36 Raise Empty exception if the deque is empty 

37 iiia 

38 if self.is empty( ): 

39 raise Empty("Deque is empty") 

40 return self. delete node(self. trailer. prev) # use inherited method 


在 使 用 哨兵 时 ， 实 现 方法 的 关键 是 要 记 住 双 端 队列 的 第 一 个 元 素 并 不 存储 在 头 节 点 ， 而 
是 存储 在 头 节点 后 的 第 一 个 节点 (假定 双 端 队列 是 非 空 的 )。 同 样 ， 尾 节点 之 前 的 一 个 节点 
中 存储 的 是 双 端 队列 的 最 后 一 个 元 素 。 

我 们 使 用 通过 继承 得 到 的 方法 insert between 向 双 端 队列 的 两 端 进行 插入 操作 。 为 了 向 
双 端 队列 前 端 插入 一 个 元 素 ， 我 们 需要 将 这 个 元 素 立 即 插 入 头 节点 和 其 后 的 一 个 节点 之 间 。 
如 果 是 在 双 端 队列 末尾 插入 节点 ， 则 可 直接 将 节点 置 于 尾 节点 之 前 。 值 得 注意 的 是 ， 这 些 操 
作 即 使 在 双 端 队列 为 空 时 也 能 成 功 : 在 这 种 情况 下 ， 新 节点 将 被 放置 在 两 个 哨兵 之 间 。 当 从 
一 个 非 空 队列 删除 一 个 元 素 ， 且 明确 知道 目标 节点 肯定 有 前 驱 和 后 继 节点 时 ， 我 们 可 以 利用 
继承 得 到 的 _delete_node 方法 来 实现 。 


7.4 ”位置 列表 的 抽象 数据 类 型 


到 目前 为 止 ， 我 们 所 讨论 的 抽象 数据 类 型 包括 栈 、 队 列 和 双向 队列 等 ， 并 且 仅 允许 在 序 
列 的 一 端 进行 更 新 操作 。 有 时 ， 我 们 希望 有 一 个 更 一 般 的 概念 。 例 如 ， 虽 然 我 们 采用 队列 的 
FIFO 语义 作为 一 种 模型 ， 来 描述 正在 等 待 与 客户 服务 代表 对 话 的 顾客 或 者 正在 排队 买 演出 
门票 的 粉丝 ， 但 是 队列 ADT 有 很 大 的 局 限 。 如 果 等 待 的 顾客 在 到 达 顾 客服 务 队 列 列 首 之 前 
决定 离开 ， 或 者 排队 买 票 的 人 人 允许 他 的 朋友 “插队 ”到 他 所 站 的 位 置 呢 ? 我 们 希望 能 够 设计 
一 个 抽象 数据 类 型 来 为 用 户 提供 一 种 可 以 定位 到 序列 中 任何 元 素 的 方法 ， 并 且 能 够 执行 任意 
的 插入 和 删除 操作 。 

在 处 理 基 于 数组 的 序列 (如 Python 列表) 时 ， 整 数 索 引 提 供 了 一 种 很 好 的 方式 来 描述 一 
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个 元 素 的 位 置 ， 或 者 描述 一 个 即将 发 生 插入 和 删除 操作 的 位 置 。 然 而 ， 数 字 索 引 并 不 适用 于 描 
述 一 个 链表 内 部 的 位 置 ， 因 为 我 们 不 能 有 效 地 访问 一 个 只 知道 其 索引 的 条 目 。 找 到 链表 中 一 个 
给 定 索引 的 元 素 ， 需 要 从 链表 的 开始 或 者 结束 的 位 置 起 逐个 遍历 从 而 计算 出 目标 元 素 的 位 置 。 

此 外 ， 在 描述 某 些 应 用 程序 中 的 本 地 位 置 时 ， 索 引 并 非 好 的 抽象 ， 因 为 序列 中 不 停 地 发 生 
插入 或 删除 操作 ， 条 目的 索引 值 会 随 着 时 间 的 推移 发 生变 化 。 例 如 ， 一 个 排队 者 的 具体 位 置 并 
不 能 通过 精确 地 知道 队列 中 在 他 之 前 到 底 有 多 少 人 而 很 容易 地 描述 出 来 。 我 们 提出 一 个 抽象 ， 
如 图 7-14 所 示 ， 用 一 些 其 他 方法 描述 位 置 。 然 后 我 们 希望 给 一 些 情 况 建 模 ， 例 如 ， 当 一 个 指 
定 的 排队 者 在 到 达 队 首 之 前 离开 队列 ， 或 立即 在 队列 中 一 个 指定 的 排队 者 之 后 增加 一 个 新 人 。 
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图 7-14 我 们 希望 能 够 识别 序列 中 一 个 元 素 的 位 置 ， 而 无 须 使 用 整数 索引 


再 如 ， 一 个 文本 文档 可 以 被 视 为 一 个 长 的 字符 序列 。 文 字 处 理 器 使 用 游标 的 抽象 描述 文 
档 中 的 一 个 位 置 ， 而 没有 明确 地 使 用 整数 索引 ， 支 持 如 “删除 此 游标 处 的 字符 ”或 者 “在 当 
前 游标 之 后 插入 新 的 字符 ”这 样 的 操作 。 此 外 ,我们 可 以 引用 文档 中 一 个 固有 的 位 置 ， 比 如 
一 个 特定 章节 的 开始 ， 但 不 能 依赖 于 一 个 字符 索引 (其 至 一 个 章节 编号 )， 因 为 这 个 索引 可 
能 会 随 着 文档 的 演化 而 改变 。 

节点 的 引用 表示 位 置 

链表 结构 的 好 处 之 一 是 : 只 要 给 出 列表 相关 节点 的 引用 ， 它 可 以 实现 在 列表 的 任意 位 置 
执行 插入 和 删除 操作 的 时 间 复 杂 度 都 是 0(1)。 因 此 ， 很 容易 开发 一 个 ADT， 它 以 一 个 节点 
引用 实现 描述 位 置 的 机 制 。 事 实 上 ，7.3.1 节 _DoublyLinkedBase 基础 类 中 的 _insert between 
和 delete node 方法 都 接受 节点 引用 作为 参数 。 

然而 ， 这 样 直接 使 用 节点 的 方式 违反 了 在 第 2 章 中 介绍 的 抽象 和 封装 这 两 个 面向 对 象 的 
设计 原则 。 为 了 我 们 自己 和 抽象 的 用 户 的 利益 ， 有 几 个 原因 致使 我 们 倾向 于 封装 一 个 链表 中 
的 节点 : 

e 对 于 用 户 来 说 ， 如 果 不 被 数据 结构 的 实现 中 那些 例如 节点 的 低级 操作 ， 或 依赖 哨兵 
节点 的 使 用 等 不 必要 的 细节 所 干扰 ， 那 么 使 用 这 些 数 据 结构 会 更 加 简单 。 注 意 ， 在 
_DoubleyLinkedBased 类 中 使 用 insert between 方法 来 向 一 个 序列 的 起 始 位 置 添加 节 
点 时 ， 头 部 哨兵 必须 作为 参数 传递 进去 。 

如 果 不 允 许 用 户 直接 访问 或 操作 节点 ， 我 们 可 以 提供 一 个 更 健壮 的 数据 结构 。 这 样 

就 可 以 确保 用 户 不 会 因 无 效 管理 节点 的 连接 而 致使 列表 的 一 致 性 变 成 无 效 。 如 果 允 

许 用 户 调用 我 们 定义 的 _DoubleyLinkedBased 类 中 的 _insert between 或 delete node 

方法 ， 并 将 一 个 不 属于 给 定 列表 的 节点 作为 参数 传递 进去 ， 则 会 发 生 更 微妙 的 问题 

(回头 看 看 这 段 代 码 ， 看 看 为 什么 它 会 引起 这 个 问题 )。 

e 通过 更 好 地 封装 实施 的 内 部 细节 ， 我 们 可 以 获得 更 大 的 灵活 性 来 重新 设计 数据 结构 
以 及 改善 性 能 。 事 实 上 ， 通 过 一 个 设计 良好 的 抽象 ， 我 们 可 以 提供 一 个 非 数 字 的 位 
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置 的 概念 ， 即 使 使 用 一 个 基于 数组 的 序列 。 
由 于 这 些 原因 ， 我 们 引入 一 个 独立 的 位 置 抽象 表示 列表 中 一 个 元 素 的 位 置 ， 而 不 是 
直接 依赖 于 节点 ， 进 而 引入 一 个 可 以 封装 双向 链表 的 〈 甚 至 是 基于 数组 序列 的 ， 参 见 练习 
P-7.46 ) 完整 的 含 位 置信 息 的 列表 ADT. 


7.4.1 含 位 置信 息 的 列表 抽象 数据 类 型 


为 了 给 具有 标识 元 素 位 置 能 力 的 元 素 序列 提供 一 般 化 抽象 ， 我 们 定义 了 一 个 含 位 置信 息 
的 列表 ADT 以 及 一 个 更 简单 的 位 置 抽象 数据 类 型 ， 来 描述 列表 中 的 某 个 位 置 。 将 一 个 位 置 
作为 更 广泛 的 位 置 列表 中 的 一 个 标志 或 标记 。 改 变 列表 的 其 他 位 置 不 会 影响 位 置 p。 使 一 个 
位 置 变 得 无 效 的 唯一 方法 就 是 直接 显 式 地 发 出 一 个 命令 来 删除 它 。 

位 置 实例 是 一 个 简单 的 对 象 ， 只 支持 以 下 方法 : 

e p.element(): 返回 存储 在 位 置 p 的 元 素 。 

在 位 置 列表 ADT 中 ,位 置 可 以 充当 一 些 方法 的 参数 或 是 作为 其 他 方法 的 返回 值 。 在 描 

述 位 置 列 表 的 行为 时 ， 我 们 介绍 如 下 列表 世 所 支持 的 访问 需 方 法 : 

e L.first(): 返回 LL 中 第 一 个 元 素 的 位 置 。 如 果 工 为 空 ， 则 返回 None. 

e L.last(): BELL 中 最 后 一 个 元 素 的 位 置 。 如 果 工 为 空 ， 则 返回 None. 

e L.before(p) : 返回 工 中 p 紧邻 的 前 面 元 素 的 位 置 。 如 果 p 为 第 一 个 位 置 ， 则 返回 

None。 
e Lafter(p): 返回 工 中 p 紧邻 的 后 面 元 素 的 位 置 。 如 果 p 为 最 后 一 个 位 置 ， 则 返回 
None。 

e Lis empty): 如 果 工 列表 不 包含 任何 元 素 ， 返回 True. 

e len(L): 返回 列表 元 素 的 个 数 。 

e iter(L): 返回 列表 元 素 的 前 向 迭代 器 。 见 1.8 节 中 有 关 Python 和 迭代 器 的 讨论 。 

位 置 列表 ADT 也 包括 以 下 更 新 方法 : 

e L.add first(e): TE L 的 前 面 插入 新 元 素 e， 返 回 新 元 素 的 位 置 。 

e L.add last(e): 在 LL 的 后面 插入 新 元 素 e， 返回 新 元 素 的 位 置 。 

e L.add before(p,e): 在 LL 中 位 置 p 之 前 插入 一 个 新 元 素 e， 返回 新 元 素 的 位 置 。 

e L.add after(p, e): 在 LL 中 位 置 p 之 后 插入 一 个 新 元 素 e， 返回 新 元 素 的 位 置 。 

e L.replace(p, e): 用 元 素 e 取代 位 置 p 处 的 元 素 ， 返 回 之 前 p 位 置 处 的 元 素 。 

e L.delete(p): 删除 并 且 返 回 工 中 位 置 p 处 的 元 素 ， 取 消 该 位 置 。 

ADT 的 这 些 方法 以 参数 形式 接收 p 的 位 置 ， 如 果 列 表 工 中 p 不 是 有 效 的 位 置信 息 ， 则 
发 生 错 误 。 

注意 ， 含 位 置信 息 列 表 ADT 中 frist) 和 last() 方法 的 返回 值 是 相关 的 位 置 ， 不 是 元 素 
(这 一 点 与 双向 队列 中 相应 的 frist() 和 last) 的 方法 相反 )。 含 位 置信 息 列 表 的 第 一 个 元 素 可 
以 通过 随后 调用 这 个 位 置 上 的 元 素 的 方法 来 确定 ， 即 L.first().element()。 将 位 置 作为 返回 值 
来 接收 的 优势 是 我 们 可 以 使 用 这 个 位 置 为 列表 导航 。 例 如 ， 下 面 代码 片段 将 打印 一 个 名 为 
data 的 含 位 置信 息 列 表 的 所 有 元 素 。 


cursor = data.first() 

while cursor is not None: 
print(cursor.element( )) # print the element stored at the position 
cursor = data.after(cursor) + advance to the next position (if any) 


£t X 183 





上 述 代码 依赖 于 这 样 的 规定 ， 在 对 列表 最 后 面 的 位 置 调 用 “ after” 时 ， 就 会 返回 None 
对 象 。 这 个 返回 值 可 以 明确 地 从 所 有 合法 位 置 区 分 出 来 。 类 似 地 ， 这 个 含 位 置信 息 的 列表 
ADT 在 对 列表 最 前 面 的 位 置 调用 “ before ”方法 时 返回 值 为 None,， 或 者 在 空 列表 调用 frist 
和 last 方 法 时 ， 也 会 返回 None。 因 此 ， 即 使 列表 为 空 ， 上 面 的 代码 片段 也 可 正常 运行 。 

因为 这 个 ADT £145 3: 4 python 的 iter 函数 。 用 户 可 以 采用 传统 的 for 循环 语法 向 前 遍 
历 这 样 一 个 命名 数据 列表 。 


for e in data: 
print(e) 


位 置 列 表 ADT 更 为 一 般 化 的 引导 和 更 新 方法 如 下 面 示例 所 示 。 

例题 7-1: 下 表 显 示 了 一 个 初始 化 为 空 的 位 置 列表 工 上 的 一 些 列 操作 。 为 了 区 分 位 置 实 
例 ， 我 们 使 用 了 变量 已 和 9g。 为 了 便于 展示 ， 当 展示 列表 内 容 时 ， 我 们 使 用 下 标 符号 来 表示 
它 的 位 置 。 


Lr: 
L.before(q) | | 8p, 5q 
L.delete(L.last()) 9s, 8p, 3r 


7.4.2 ”双向 链表 实现 


在 本 节 中 ， 我们 呈现 一 个 使 用 双向 链表 完整 实现 位 置 列表 类 PositionalList 的 方法 ， 并 
满足 以 下 重要 的 命题 。 

命题 7-2: 当 使 用 双向 链表 实现 时 ， 位 置 列 表 ADT 每 个 方法 的 运行 时 间 为 最 坏 情 况 O(1). 

我 们 采用 7.3.1 节 中 的 _DoublyLinkedBase 类 作为 底层 的 表示 ， 新 类 主要 用 于 按照 
位 置 列表 ADT 提供 一 个 公共 的 接口 。 我 们 在 代码 段 7-14 中 从 定义 公共 类 Position 开始 
在 PositionalList 25 rP iix EE MAE, Position 实例 将 用 来 表示 列表 中 元 素 的 位 置 。 各 种 
PositionalList 方法 可 能 会 创建 元 余 的 Position 实例 引用 相同 的 底层 节点 (例如 ， 开 始 和 最 后 
是 相同 的 )。 出 于 这 个 原因 ，Position 类 定义 了 eq 和 ne 这 两 个 特殊 方法 ， 从 而 使 
一 个 如 p==q 判断 的 测试 在 两 个 位 置 引用 同一 个 节点 的 情况 下 能 够 得 出 True 的 结论 。 

确认 位 置 

每 当 PositionalList 类 的 一 个 方法 以 参数 形式 接收 一 个 位 置信 息 时 ， 我 们 想 确 认 这 个 位 
置 是 有 效 的 ， 以 确定 与 这 个 位 置 关联 的 底层 的 节点 。 这 个 功能 是 由 一 个 名 叫 validate 的 非 
公有 的 方法 实现 的 。 在 内 部 ,一 个 位 置 为 链表 的 相关 节点 维护 着 引用 信息 ， 并 且 列 表 实 例 的 
引用 包含 指定 的 节点 。 利 用 这 种 容器 的 引用 ， 当 调用 者 发 送 不 属于 指定 列表 的 位 置 实例 时 ， 
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我 们 可 以 轻易 地 检测 到 。 

我 们 也 能 够 检测 到 一 个 属于 列表 ,但 其 指向 节点 不 再 是 列表 一 部 分 的 位 置 实例 。 回 想 ， 
基 类 的 _delete_node 将 被 删除 节点 的 前 驱 和 后 继 的 引用 设置 为 None ; 我 们 可 以 通过 识别 这 

一 条 件 来 检测 被 弃 用 的 节点 。 

访问 和 更 新 方法 

Positiona 类 的 访问 方法 在 代码 段 7-15 中 给 出 ， 更 新 方法 在 代码 段 7-16 中 给 出 。 所 有 
这 些 方法 非常 适用 于 底层 双向 链表 实现 支持 位 置 列表 ADT 的 公共 接口 。 这 些 方法 依赖 于 
validate 工具 “打开 ”发 送 的 任何 位 置 。 它 们 还 依赖 于 一 个 _make_position 工具 来 “包装 ” 
节点 作为 Position 实例 返回 给 用 户 ， 确 保 不 要 返回 一 个 引用 哨兵 的 位 置 。 为 了 方便 起 见 ， 我 
们 已 经 重 载 了 继承 的 实用 程序 方法 中 的 insert between 方法 ， 这 样 可 以 返回 一 个 相对 应 的 
新 创建 节点 的 位 置 (继承 版 本 则 返回 节点 本 身 )。 


代码 段 7-14 ”基于 双向 链表 的 PositionalList 类 (后 接 代码 段 7-15 和 代码 段 7-16 ) 
1 class PositionalList(_DoublyLinkedBase): 


2 """ A sequential container of elements allowing positional access." "" 
H dE -—-—--—---—-- nested Position class 一 -一 一 一 一 一 

5 class Position: 

6 "An abstraction representing the location of a single element." "" 
8 def — init. (self, container, node): 

9 """ Constructor should not be invoked by user." " 

10 self. container — container 


11 self. node = node 


13 def element(self): 
14 '"" Return the element stored at this Position." " 
15 return self. node. element 


7 def . eq. (self, other): 


18 """Return True if other is a Position representing the same location." "" 
19 return type(other) is type(self) and other. node is self. node 

20 

21 def ne. (self, other): 

22 """ Return True if other does not represent the same location." " " 

23 return not (self —— other) # opposite of . eq. 

24 

25 fE—-—-—-7—--—-—-—--—--——-—-—------- utility method -———--------------—--—---- 

26 def _validate(self, p): 

27 "Return position's node, or raise appropriate error if invalid." "" 

28 if not isinstance(p, self.Position): 

29 raise TypeError('p must be proper Position type') 

30 if p. container is not self: 

31 raise ValueError('p does not belong to this container') 

32 if p. node. next is None: # convention for deprecated nodes 
33 raise ValueError('p is no longer valid') 

34 return p._node 


代码 段 7-15 ”基于 双向 链表 的 PositionalList 类 (前 继 代码 段 7-14， 后 续 代码 段 7-16 ) 


35 天 一 -一 一 一 一 -一 一 一 一 一 一 一 一 Utility method 一 一 一 -一 一 一 一 一 一 一 一 一- 

36 def pe position(self, node): 

37 "Return Position instance for given node (or None if sentinel).""" 
38 if node is self. header or node is self. trailer: 


39 return None 3t boundary violation 
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else: 
return self.Position(self, node) # legitimate position 
dE accessors ---------—-------------------- 
def first(self): 


""" Return the first Position in the list (or None if list is empty).""" 
return self. make. position(self. header. next) 


def last(self): 
""" Return the last Position in the list (or None if list is empty) 
return self. make. position(self. trailer. prev) 


"mun 


def before(self, p): 
""" Return the Position just before Position p (or None if p is first) 
node — self. validate(p) 
return self. make position(node. prev) 


non 


def after(self, p): 
"""Return the Position just after Position p (or None if p is last) 
node — self. validate(p) 
return self. make. position(node. next) 


def . iter. (self): 
""" Generate a forward iteration of the elements of the list. "" 
cursor = self.first() 
while cursor is not None: 
yield cursor.element( ) 
cursor — self.after(cursor) 


代码 段 7-16 ”基于 双向 链表 的 PositionalList 类 ( 接 代码 段 7-14 和 代码 段 7-15 ) 


#- 一 一 一 一 一 一 一 一 一 -一 一 - mutators -一 -一 -一 一 一 -一 一 一 -一 -一 

# override inherited version to return Position, rather than Node 

def insert between(self, e, predecessor, successor): 
""" Add element between existing nodes and return new Position." " " 
node = super( ).- insert between(e, predecessor, successor) 
return self. make position(node) 


def add. first(self, e): 
"Insert element e at the front of the list and return new Position.’ 
return self. insert between(e, self. header, self. header. next) 


"n 


def add. last(self, e): 
""" Insert element e at the back of the list and return new Position." "" 
return self. insert between(e, self. trailer. prev, self. trailer) 


def add. before(self, p, e): 
"Insert element e into list before Position p and return new Position." "" 
original = self._validate(p) 
return self. insert between(e, original. prev, original) 


def add. after(self, p, e): 
""" Insert element e into list after Position p and return new Position." " " 
original — self. validate(p) 
return self. insert between(e, original, original. next) 


def delete(self, p): 
"Remove and return the element at Position p." "" 
original = self. validate(p) 
return self. delete node(original) # inherited method returns element 


def replace(self, p, e): 
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99 """ Replace the element at Position p with e. 

100 

101 Return the element formerly at Position p. 

102 iai 

103 original — self. validate(p) 

104 old. value = original. element # temporarily store old element 
105 original. element — e # replace with new element 
106 return old. value # return the old element value 


7.5 位置 列表 的 排序 


在 5.5.2 节 中 ， 我 们 介绍 了 在 一 个 基于 数组 的 序列 中 的 插入 排序 算法 。 在 本 节 中 ， 我 们 
开发 一 个 在 PositionalList 上 进行 操作 的 实现 ， 这 


个 实现 同样 是 依赖 于 在 对 元 素 进行 排序 并 不 断 增长 un A 
我 们 维护 一 个 名 为 marker 的 变量 ， 这 个 变量 
表示 一 个 列表 当前 排序 部 分 最 右边 的 位 置 。 我 们 每 Kon 





次 考虑 用 pivot 标记 marker 刚 过 去 的 位 置 和 pivot ELTAS 插入 排序 中 一 个 步骤 的 示意 图 。 阴 


的 元 素 属于 相对 排序 的 部 分 。 我 们 使 用 另 一 个 被 影 部 分 的 元 素 (一 直到 marker) E 
命名 为 walk 的 变量 ， 从 marker 向 左 移动 ， 只 要 还 经 排 好 序 。 在 这 一 步 中 ，pivet 的 
有 一 个 前 驱 元 素 的 值 大 于 pivot 元 素 的 值 ， 就 一 直 元 素 应 该 在 walk 位 置 之 前 被 立即 
移动 。 这 些 变量 的 典型 配置 如 图 7-15 所 示 。 采 用 重新 定位 


Python 对 这 个 策略 的 实现 如 代码 段 7-17 所 示 。 
代码 段 7-17 在 位 置 列表 中 执行 插入 排序 的 python 代码 


def insertion. sort(L): 


1 

2  """Sort PositionalList of comparable elements into nondecreasing order." "" 
3  iflen(L) > 1: # otherwise, no need to sort it 

4 marker = L.first( ) 

5 while marker !— L.last(): 

6 pivot — L.after(marker) # next item to place 

7 value — pivot.element( ) 

8 if value > marker.element(): ^ 4 pivot is already sorted 

9 marker — pivot # pivot becomes new marker 
10 else: # must relocate pivot 
11 walk — marker # find leftmost item greater than value 
12 while walk !— L.first( ) and L.before(walk).element( ) > value: 
13 walk — L.before(walk) 

14 L.delete(pivot) 

15 L.add_before(walk, value) # reinsert value before walk 


7.6 ”案例 研究 : 维护 访问 频率 

在 很 多 设置 中 ， 位 置 列 表 ADT 都 是 有 用 的 。 例 如 ， 在 一 个 模拟 纸牌 游戏 的 程序 中 ， 可 
以 对 每 个 人 的 手 用 位 置 列表 进行 建 模 (练习 P-7.47 )。 因 为 大 多 数 人 会 把 相同 花色 的 纸牌 放 
在 一 起 ， 所 以 从 一 个 人 手中 插入 和 拿 出 纸牌 可 以 使 用 位 置 列表 ADT 的 方法 实现 ， 其 位 置 是 
由 各 个 花色 的 自然 顺序 决定 的 。 同 样 ， 一 个 简单 的 文本 编辑 器 嵌入 含 位 置 的 插入 和 删除 的 概 
念 ， 因 为 这 类 编辑 器 的 所 有 更 新 都 是 相对 于 一 个 游标 执行 的 ， 该 游标 表示 列表 文本 中 正在 被 
编辑 的 当前 位 置 的 字符 。 
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在 本 节 中 ， 当 跟踪 每 个 元 素 被 访问 的 次 数 时 ， 我 们 考虑 维护 一 个 元 素 的 集合 。 保 存 元 素 
的 访问 数量 ， 使 我 们 知道 集合 中 的 哪些 元 素 是 最 受 欢 迎 的 。 这 种 场景 的 例子 包括 能 够 跟踪 用 
户 访问 最 多 的 URL 信息 的 Web 浏览 器 ， 或 者 是 那 种 能 够 保存 用 户 最 常 播放 歌曲 列表 的 音乐 
收藏 夹 。 我 们 用 新 的 favorites list ADT 来 建 模 ， 它 支持 len 和 is empty 方法 ,还 支持 以 下 的 
方法 : 

e access(e) : 访问 元 素 e， 增 加 其 访问 数量 。 如 果 它 尚未 存在 于 收藏 夹 列表 中 ， 会 将 它 

添加 至 列表 中 。 
e remove(e): 从 收藏 夹 列表 中 移 除 元 素 e， 前 提 是 存在 这 样 的 e. 
e top(k): 返回 前 k 个 访问 最 多 的 元 素 的 迭代 器 。 


7.6.1 使 用 有 序 表 

管理 收藏 夹 的 第 一 种 方法 是 在 链表 中 存储 元 素 ， 按 访问 次 数 的 降序 顺序 来 存储 这 些 元 
素 。 在 访问 或 者 移 除 一 个 元 素 时 ， 通 过 从 最 经 常 访问 的 到 最 少 经 常 访 问 的 元 素 的 方式 查询 列 
表 的 方法 进行 元 素 定 位 。 返 回 前 大 个 访问 最 频繁 的 元 素 很 容易 ， 因 为 只 要 返回 列表 中 的 前 大 
个 元 素 记 录 即 可 。 

为 了 使 列表 以 元 素 访问 次 数 降 序 排 列 的 方式 保持 不 变 ， 我 们 必须 考虑 一 个 单 次 访问 操作 
对 元 素 的 排列 顺序 会 产生 怎样 的 影响 。 被 访问 的 元 素 的 访问 次 数 加 一 ， 它 的 访问 次 数 就 可 能 
比 原 来 在 它 之 前 的 一 个 或 者 几 个 元 素 的 都 多 了 ， 这 样 就 会 破坏 了 列表 的 不 变性 。 

所 幸 ， 我 们 可 以 采用 前 一 节 中 介绍 的 一 个 类 似 于 单 向 插入 排序 算法 对 列表 重新 排序 。 我 
们 可 以 从 访问 数量 增加 的 元 素 的 位 置 开 始 ， 执 行 一 个 列表 的 向 后 遍历 ， 直 至 找到 一 个 元 素 可 
以 被 重 定 位 的 有 效 位 置 之 后 。 

使 用 组 合 模式 

我 们 希望 利用 PositionalList 类 作为 存储 辅助 实现 一 个 收藏 夹 列表 。 如 果 位 置 列表 的 元 素 
是 收藏 夹 的 简单 元 素 ， 我 们 将 面临 的 挑战 是 当 列 表 的 内 容 被 重新 排序 时 ， 维 护 访问 次 数 以 及 
保持 列表 中 相关 联 元 素 的 适当 数量 。 我 们 使 用 一 个 通用 的 面向 对 象 的 设计 模式 一 一 组 合 模式 。 
在 这 个 模式 中 ， 我 们 定义 了 一 个 由 两 个 或 两 个 以 上 其 他 对 象 组 成 的 单一 对 象 。 具 体 地 说 ， 我 
们 定义 了 一 个 名 为 Item 的 非 公 有 舱 套 类 ， 用 于 存储 元 素 并 以 其 访问 次 数 作为 一 个 实例 。 然 
后 ， 将 收藏 夹 作为 item 实例 以 PositionalList 来 维护 ， 这 样 用 户 元 素 的 访问 次 数 就 都 可 以 被 扔 
和信 我们 的 表示 方法 中 ( Item 从 来 不 会 暴露 给 FavoritesList 的 用 户 ， 见 代码 段 7-18 和 7-19 ) 。 


代码 段 7-18 FavoritesList 类 ( 后 续 代 码 段 7-19 ) 


class FavoritesList: 


1 

2 """List of elements ordered from most frequently accessed to least.""" 

3 

4 并 一 --- 一 一 -一 -一 一 -一 一------ nested ltem class ------------------------------ 

5 class ltem: 

6 --slots-- = ' value', ' count' # streamline memory usage 
7 def init. (self, e): 

8 self. value — e # the user's element 

9 self. count — 0 # access count initially zero 
10 
11 die nonpublic utilities —---------------------------—- 
12 def _find_position(self, e): 

13 """ Search for element e and return its Position (or None if not found). """ 
14 walk = self. data.first() 


15 while walk is not None and walk.element().. value !— e: 
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16 walk = self._data.after(walk) 

17 return walk 

18 

19 def move. up(self, p): 

20 """ Move item at Position p earlier in the list based on access count." " " 
21 if p !— self. data.first(): # consider moving. 
22 cnt = p.element()...count 

23 walk = self. data.before(p) 

24 if cnt > walk.element().-count: # must shift forward 
25 while (walk !— self. data.first( ) and 

26 cnt > self. data.before(walk).element( )._count): 

27 walk = self. data.before(walk) 

28 


self._data.add_before(walk, self. data.delete(p)) #4 delete/reinsert 


代码 段 7-19 FavoritesList 类 (前 继 代码 段 7-18 ) 


29 大 -一 一 public methods -一 -一 -一 一 一 一 
30 def init. (self): 

31 """ Create an empty list of favorites." "" 

32 self. data — PositionalList( ) # will be list of .Item instances 
33 

34 def __len__(self): 

35 """ Return number of entries on favorites list.?"” 

36 return len(self. data) 

37 

38 def is empty(self): 

39 """Return True if list is empty." " 

40 return len(self. data) —— 


42 def access(self, e): 


43 """ Access element e, thereby increasing its access count." "" 

44 — self. find. position(e) # try to locate existing element 
45 if p is None: 

46 p = self. data.add last(self. Item(e)) # if new, place at end 

47 p.element( )..count += 1 # always increment count 
48 self. move. up(p) # consider moving forward 
49 

50 def remove(self, e): 

51 ^"" Remove element e from the list of favorites." "" 

52 p = self. find. position(e) # try to locate existing element 
53 if p is not None: 

54 self. data.delete(p) # delete, if found 

55 

56 def top(self, k): 

57 """ Generate sequence of top k elements in terms of access count." " " 
58 if not 1 <= k <= len(self): 

59 raise ValueError('Illegal value for k') 

60 walk = self..data.first() 

61 for j in range(k): 

62 item = walk.element( ) # element of list is tem 
63 yield item._value # report user's element 
64 walk = self. data.after(walk) 


7.6.2 ”启发 式 动态 调整 列表 


先前 收藏 夹 列表 的 实现 所 执行 的 access(e) 方法 与 收藏 夹 列 表 中 e 的 索引 存在 时 间 上 的 
比例 关系 。 也 就 是 说 ， 如 果 e 是 收藏 夹 列表 中 第 个 最 受 欢 迎 的 元 素 ， 那 么 访问 元 素 e 的 时 
间 复 杂 度 就 是 O( 月 。 在 许多 实际 的 访问 序列 中 〈 如 ,用户 访问 网 页 )， 如 果 一 个 元 素 被 访问 ， 
那么 它 很 有 可 能 在 不 久 的 将 来 再 次 被 访问 。 这 种 情况 被 称 为 具有 访问 的 局 部 性 。 
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启发 式 算 法 (或 称 为 经 验 法 则 )， 尝 试 利用 访问 的 局 部 性 ， 就 是 在 访问 序列 中 采用 
Move-to-Front 启发 式 。 为 了 应 用 启发 式 算 法 ,我 们 每 访问 一 个 元 素 ， 都 会 把 该 元 素 移 动 到 
列表 的 最 前 面 。 当 然 ， 我 们 这 么 做 是 希望 这 个 元 素 在 近期 可 以 被 再 次 访问 。 例 如 ， 考 虑 一 个 
场景 ， 在 这 个 场景 中 ,我 们 及 个 元 素 和 以 下 m 次 访问 : 

e 元 素 1 被 访问 n 次 。 | 

e 元 素 2 被 访问 n X. 

di enun 

e 元 素 n WP n MK. 

如 果 将 元 素 按 它们 被 访问 的 次 数 进行 存储 ， 当 元 素 第 一 次 被 访问 时 将 元 素 插入 队列 ， 则 : 

e 对 元 素 1 的 每 次 访问 所 花费 的 时 间 为 0(1)。 

e 对 元 素 2 的 每 次 访问 所 花费 的 时 间 为 0(2)。 


e 对 元 素 n 的 每 次 访问 所 花费 的 时 间 为 O(n). 

因此 ， 执 行 一 系列 访问 的 总 时 间 就 可 以 按 比例 地 计算 为 : 

n+2n+3nt++n*n=n(l+2+3+*+n)=n* n(n+1)2, 即 O(n’), 

但 是 ， 如 果 使 用 Move-to-Front 启发 式 算法 ， 在 每 个 元 素 第 一 次 被 访问 时 将 它 插 入 ， 则 

e 元 素 1 的 每 个 后 续 访 问 所 花费 的 时 间 为 0(1)。 

e TR 2 的 每 个 后 续 访 问 所 花费 的 时 间 为 0(1)。 

e TA n 的 每 个 后 续 访 问 所 花费 的 时 间 为 0(1)。 

所 以 ， 在 这 个 案例 中 ,执行 所 有 访问 的 运行 时 间 为 O(02)。 因 此 ， 这 个 场景 的 Move-to- 
Front 实现 具有 更 短 的 访问 时 间 。 然 而 ，Move-to-Front 只 是 一 个 启发 式 算 法 ， 因 为 这 种 使 用 
Move-to-Front 方法 访问 序列 比 简单 地 保存 根据 访问 数量 排序 的 收藏 夹 列表 更 慢 。 

Move-to-Front 启发 式 的 权衡 

当 要 求 寻找 收藏 夹 列表 中 前 个 访问 最 多 的 元 素 时 ， 如 果 不 再 保存 列表 中 通过 访问 次 数 
排序 的 元 素 ， 就 需要 搜索 所 有 元 素 。 实 现 top(k) 方法 的 步骤 如 下 : 

1 ) 将 所 有 收藏 夹 列表 中 的 元 素 复 制 到 男 一 个 列表 ， 并 将 该 列表 命名 为 temp. 

2) 扫描 temp 列表 大 次 ， 每 次 扫描 时 ， 找 出 访问 量 最 大 的 元 素 记 录 ， 

从 temp 中 移 除 这 条 记录 ， 并 且 在 结果 中 给 出 报告 。 

实现 top 方法 的 时 间 复 杂 度 是 O(jm)， 因 此 ， 当 是 一 个 常数 时 ，top 方法 的 运行 时 间 复 
杂 度 为 O(n)。 例 如 ， 想 得 到 “ top ten” 列 表 ， 就 是 这 种 情况 。 但 是 ， MRA An 是 成 比例 
的 ， 那么 top 运行 时 间 复 制度 为 O02)， 例 如 ， 我 们 需要 一 个 “top 25%” 列 表 时 。 

在 第 9 章 中 ,我 们 将 介绍 一 种 以 O(n + klogn) 的 时 间 复 杂 度 实现 top 方法 的 数据 结构 
( 见 练习 P-9.54 )， 并且 可 以 使 用 更 多 先进 的 技术 在 O(n + klogn) 时 间 复 杂 度 内 来 实现 top 
Es 

如 果 在 报告 前 上 个 元 素 之 前 ， 使 用 一 个 标准 的 排序 算法 来 对 临时 列表 重新 排序 ( 见 12 
WE), (RAS USE PL O(nlogn) 的 时 间 复 杂 度 。 这 种 方法 在 是 O(logn) 的 情况 下 优 于 原始 方 
ik (回想 3.3.1 节 中 介绍 的 大 Q 概念 ， 它 给 出 了 一 个 更 接近 运行 时 间 下 限 的 排序 算法 )。 还 
有 更 多 专门 的 排序 算法 ( 见 12.4.2 节 )， 这 些 算法 可 以 借助 访问 次 数 是 整数 实现 对 任何 一 个 
值 ，top 方法 的 时 间 复 杂 度 为 O(n). 
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FA Python 实现 More-to-Front 启发 式 

在 代码 段 7-20 中 ， 我 们 给 出 了 一 个 采用 Move-to-Front 启发 式 实现 的 收藏 夹 列表 。 其 中 
的 新 FavoritesListMTF 类 继承 了 原始 FavoritesList 基 类 的 绝 大 部 分 功能 。 

在 最 初 的 设计 中 ， 原 始 类 的 access 方法 依赖 于 一 个 非 公共 的 实体 move up， 在 列表 
中 ， 一 个 元 素 的 访问 次 数 增加 之 后 ， 使 该 元 素 向 潜在 的 向 前 的 位 置 调整 。 因 此 ， 我 们 通过 简 
单 地 重 载 move up 方法 的 方式 实现 More-to-Front 启发 式 ， 从 而 使 每 个 被 访问 的 元 素 都 被 
直接 移动 到 列表 的 前 端 (如 果 之 前 不 在 前 端的 话 )。 这 个 动作 很 容易 通过 位 置 列表 的 方法 来 
实现 。 

FavoritesListMTF 类 中 更 复杂 的 部 分 是 top 方法 的 新 定义 。 我 们 借助 上 文 所 概述 的 第 一 
种 方法 ,将 条 目的 副本 插入 临时 列表 中 ， 然 后 重复 地 查找 、 报 告 ， 移 除 在 剩余 元 素 中 访问 量 
最 大 的 元 素 。 


代码 段 7-20  FavoritesListMTF 类 实现 Move-to-Front 启发 式 。 这 个 类 继承 FavoritesList (代码 段 7-18 
和 代码 段 7-19 ) 和 重 载 _move__up 和 top 两 个 方法 


class FavoritesListMTF(FavoritesList): 
""" List of elements ordered with move-to-front heuristic." " " 


# we override _move_up to provide move-to-front semantics 
def _move_up(self, p): 
""" Move accessed item at Position p to front of list." "" 
if p !— self. data.first(): 
self. data.add.first(self. data.delete(p)) # delete/reinsert 
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10 # we override top because list is no longer sorted 
ll def top(self, k): 


12 """ Generate sequence of top k elements in terms of access count." "" 

13 if not 1 <= k <= len(self): 

14 raise ValueError('Illegal value for k') 

15 

16 # we begin by making a copy of the original list 

17 temp — PositionalList( ) 

18 for item in self. data: # positional lists support iteration 
19 temp.add. last(item) 

20 

21 # we repeatedly find, report, and remove element with largest count 

22 for j in range(k): 

23 # find and report next highest from temp 

24 highPos — temp.first() 

25 walk — temp.after(highPos) 

26 while walk is not None: 

27 if walk.element().-count > highPos.element()..count: 

28 highPos — walk 

29 walk — temp.after(walk) 

30 ## we have found the element with highest count 

31 yield highPos.element().. value # report element to user 
32 temp.delete(highPos) # remove from temp list 


7.7 ”基于 链接 的 序列 与 基于 数组 的 序列 

我 们 以 思考 之 前 介绍 过 的 基于 数组 和 基于 链接 的 数据 结构 的 pros 和 cons 之 间 的 联系 来 
作为 本 章 的 结尾 。 当 选择 一 个 合适 的 数据 结构 的 实现 方法 时 ， 这 些 方法 中 呈现 了 一 个 共同 的 
设计 结果 ， 即 两 面 性 。 就 像 每 个 人 都 有 优点 和 缺点 一 样 ， 没 办 法 找到 一 个 万 全 的 解决 方案 。 
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基于 数组 的 序列 的 优点 

e 数组 提供 时 间 复 杂 度 为 O(1) 的 基于 整数 索引 的 访问 一 个 元 素 的 方法 。 对 于 任何 k 值 
以 时 间 复 杂 度 0(1) 访问 第 个 元 素 的 能 力 是 一 个 数组 的 优点 ( 见 5.2 节 )。 相 应 地 ， 
在 一 个 链表 中 定位 第 个 元 素 要 从 起 始 位 置 遍历 列表 ， 其 时 间 复 杂 度 为 Oko WR 
是 反 向 遍历 双向 链表 ， 则 时 间 复 杂 度 为 O(n — k)« 

e 通常 ， 具 有 等 效 边界 的 操作 使 用 基于 数组 的 结构 运行 一 个 常数 因子 比 基 于 链表 的 结 
构 运 行 更 有 效率 。 例 如 ， 考 虑 一 个 针对 队列 的 典型 的 enqueue 操作 。 忽 略 调 整数 组 大 
小 的 问题 , ArrayQueue 类 上 的 这 个 操作 ( 见 代码 段 6-7 ) 包括 一 个 新 索引 的 计算 算法 、 
一 个 整数 的 增 量 ， 并 在 数组 中 为 元 素 存 储 一 个 引用 。 相 反 ，LinkedQueue 的 程序 (IL 
代码 段 7-8 ) 要 求 节点 的 实例 化 、 节 点 的 合适 链接 和 整数 的 增 量 。 当 这 个 操作 用 男 一 
个 模型 在 O(1) 内 完成 时 ,链接 版 本 中 CPU 操作 的 实际 数量 会 更 多 ， 特 别 是 考虑 到 新 
节点 的 实例 化 。 

e 相 较 于 链 式 结构 ， 基 于 数组 的 表示 使 用 存储 的 比例 更 少 。 这 个 优点 似乎 是 有 悖 于 直 
觉 的 ， 特 别 是 考虑 到 一 个 动态 数组 的 长 度 可 能 超过 它 存储 的 元 素 的 数量 。 基 于 数组 
的 列表 和 链接 列表 都 是 可 引用 的 结构 ， 所 以 主 存储 器 用 于 存储 两 种 结构 的 元 素 的 实 
际 对 象 是 相同 的 。 而 两 者 的 不 同 点 在 于 这 两 种 结构 使 用 的 备用 内 存 的 数量 。 对 于 基 
于 数组 的 n 个 元 素 的 容器 ， 一 种 典型 的 最 坏 情 况 是 最 近 调 整 动态 数组 已 经 为 2n 对 象 
引用 分 配 内 存 。 而 对 于 链表 ， 内 存 不 仅 要 存储 每 个 所 包含 的 对 象 的 引用 ， 还 要 明确 
地 存储 链接 这 各 个 节点 的 引用 。 一 个 长 度 为 n 的 单 向 链表 至 少 需要 2n 个 引用 (每 个 
节点 的 元 素 引 用 和 指向 下 一 个 节点 引用 )。 

基于 链表 的 序列 的 优点 

e 基于 链表 的 结构 为 它们 的 操作 提供 最 坏 情 况 的 时 间 界 限 。 这 与 动态 数组 的 扩张 和 收 
缩 相 关联 的 摊 销 边界 相对 应 CL 5.3 节 )。 

当 许 多 单个 操作 是 一 个 大 型 计算 的 一 部 分 时 ， 我 们 仅 关 心计 算 的 总 时 间 ， 捧 销 边 界 
和 最 坏 情况 的 边界 一 样 精确 ， 因 为 它 可 以 确保 花费 所 有 单个 操作 的 时 间 总 和 。 

然而 ， 如 果 数 据 结 构 操 作用 于 一 个 实时 系统 ， 旨 在 提供 更 迅速 的 反应 (如 ， 操 作 系 
统 、Web 服务 器 、 空 中 交通 控制 系统 )， 则 单 〈 摊 销 ) 操作 导致 的 长 时 间 延 迟 可 能 有 
不 利 影 响 。 

e 基于 链表 的 结构 支持 在 任意 位 置 进行 时 间 复 杂 度 为 O(1) 的 插入 和 删除 操作 。 人 能够 用 
PositionalList 类 实现 常数 时 间 复 杂 度 的 插入 和 删除 操作 ， 并 通过 使 用 Position 有 效 地 
描述 操作 的 位 置 ， 这 可 能 是 链表 最 显著 的 优势 。 

这 与 基于 数组 的 序列 形成 了 鲜明 的 对 比 。 忽 略 调 整数 组 大 小 的 问题 ， 任 何 从 基于 数 
组 列表 的 末尾 插入 或 删除 一 个 元 素 的 操作 都 可 以 在 常数 时 间 内 完成 。 然 而 ， 更 普 
遍 的 插入 和 删除 代价 是 很 大 的 。 例 如 ， 用 Python 的 基于 数组 列表 类 ， 调 用 索引 为 
天 的 插入 和 删除 使 用 的 时 间 复 杂 度 为 O(n — k- 1)， 因 为 要 循环 替换 所 有 后 续 元 素 
(WL 5.4 47). 

作为 应 用 程序 实例 ， 考 虑 维护 一 个 文件 作为 字符 序列 的 文本 编辑 器 。 虽 然 用 户 经 常 
在 文件 的 末尾 追加 字符 ， 还 可 能 用 光标 在 文件 的 任意 位 置 插 入 和 删除 一 个 或 多 个 字 
符 。 如 果 字 符 序 列 存储 在 一 个 基于 数组 的 序列 中 (如 ， 一 个 Python 列表 )， 每 个 编辑 
操作 可 能 需要 线性 地 调换 许多 字符 的 位 置 ， 导 致 每 个 编辑 操作 的 O(n) 性 能 。 知 用 链 
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表 表 示 ， 任意 一 个 编辑 操作 (在 光标 处 的 插入 和 删除 ) 可 以 以 最 坏 情 况 的 时 间 复 杂 度 
O) 执行 ， 假 设 所 给 定 的 位 置 是 表示 光标 的 位 置 。 


7.8 练习 
请 访问 www.wiley.com/college/goodrich. 以 获得 练习 帮助 。 
巩固 


R-7.1 给 出 在 单 向 链表 中 找到 第 二 个 节点 到 最 后 一 个 节点 的 算法 ， 其 中 最 后 一 个 节点 的 next 指针 指向 空 。 
R-7.2 给 出 将 两 个 单 向 链表 志和 M 合 并 成 一 个 新 的 单 向 链表 二 ”的 算法 ， 只 给 出 每 个 列表 的 一 个 头 节 
点 的 指针 ， 链 表 乙 包括 过 和 M 的 所 有 节点 ， 且 所 有 来 自 M 的 节点 都 在 工 的 节点 之 后 。 

R-7.3 给 出 计算 一 个 单 向 链表 所 有 节点 数量 的 递归 算法 。 
R-7.4 在 仅 给 出 两 个 节点 xx 和 ?y 的 指针 的 情况 下 ， 详 细 描 述 怎 样 在 一 个 单 向 链表 中 交换 这 两 个 节点 
(注意 : 不 仅仅 是 交换 两 个 节点 的 内 容 )。 在 世 是 双 链表 的 情况 下 重复 这 个 练习 ， 哪 个 算法 更 
耗 时 ? | 
R-7.5 实现 统计 一 个 循环 链表 节点 个 数 的 函数 。 
R-7.6 假定 x Al y 是 循环 链表 的 节点 ， 但 不 必 属 于 同一 个 链表 。 请 给 出 一 个 快速 有 效 的 算法 ， 判 断 x 
FI y 是 否 来 自 同一 个 链表 。 
R-7.7 对 于 一 个 非 空 队列 我们 在 7.2.2 节 的 CircularQueue 类 中 给 出 了 一 个 与 Q.enqueue(Q. 
dequeue()) 语义 相似 的 rotate() 方法 。 在 不 创建 任何 新 节点 的 情况 下 为 7.1.2 节 的 LinkedQueue 
类 实现 一 个 相似 的 方法 。 
R-7.8 通过 连接 跳跃 ， 给 出 寻找 一 个 双向 链表 的 中 间 节 点 的 非 递 归 算 法 。 在 节点 数 是 偶数 的 情况 下 ， 
链表 的 中 间 节 点 指 的 是 中 间 偏 左 的 节点 〈 注 意 : 这 个 方法 必须 使 用 链接 跳跃 ， 不 能 使 用 一 个 计 
数 右 )， 并 指出 这 个 方法 的 运行 时 间 。 
R-7.9 给 出 含有 头 、 尾 哨兵 ， 将 两 个 双向 链表 志和 M 合 并 为 地 的 高 效 算 法 。 
R-7.10 在 含 位 置信 息 链 表 的 抽象 数据 结构 中 存在 一 些 宛 余 的 方法 ， 比 如 操作 L.add_first(e) 可 以 由 可 
选 的 L.add before(L.first(), e) 实现 ， 也 可 以 由 L.add_after(L.last(), e) 实现 。 试 解释 为 什么 方 
法 add first 和 add last 是 必需 的 。 
R-7.11 实现 一 个 称 为 max(L) 的 函数 ， 返 回 包含 一 系列 可 比较 元 素 的 PositionalList 实例 工 中 的 最 大 
元 素 。 
R-7.12 重 做 上 述 练习 ， 将 max 作为 方法 放 和 人 带 有 信息 链表 的 类 中 ， 以 支持 方法 L.max() 的 调用 。 
R-7.13 ”更 新 PositionalList 类 ， 使 其 能 够 支持 方法 find(e)， 该 方法 将 返回 元 素 e (第 一 次 出 现 ) 在 链表 
中 的 位 置 (如 果 没 有 发 现 ， 则 返回 None). 
R-7.14 运用 递归 方法 重复 刚才 的 练习 。 实 现 方 法 不 要 包含 任何 循环 。 并 说 明 该 方法 除了 链表 了 所 占 
的 空间 外 还 需要 占用 多 少 额 外 的 空间 。 
R-7.15 Jj PositionalList 类 提供 一 个 类 似 于 iter — 773589 — reversed _ 方法 的 支持 , 但 以 逆 置 的 顺 
序 迭 代 元 素 。 
R-7.16 通过 只 使 用 方法 集 (is empty. first, last, prev, next, add after, add first] 中 的 方法 给 出 实 
现 PositionalList 的 方法 add last 和 add before 的 描述 。 
R-7.17 在 FavoritesListMTF 类 中 ， 我 们 借助 PositionallistADT 的 公共 方法 将 一 个 元 素 从 链表 中 的 
TELE p 移动 到 链表 第 一 个 元 素 的 位 置 ， 同 时 保持 其 他 元 素 的 相对 位 置 不 变 。 在 内 部 ， 这 些 操 
作 造 成 了 一 个 节点 被 移 除 而 另 一 个 新 的 节点 被 插入 。 给 positionalList 类 增加 一 个 新 的 方法 
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move_to_front(P)， 通 过 重新 链接 已 存 的 节点 更 加 直接 地 实现 这 个 目标 。 

给 出 一 个 存储 在 链表 中 的 元 素 集 (a, b, c, d, e, 有， 假设 根据 (a, b, c, d, e, f, a, c, f, b, d, e} 的 顺 
序 通过 使 用 Move-to-Front 启发 式 操作 元 素 ， 请 给 出 最 终 链表 中 元 素 的 状态 。 

(IE MAA n PTOL CY kn 次 的 访问 操作 ， 其 中 整数 大 于 等 于 1。 如果 被 访问 
的 次 数 少 于 次 ， 那么 最 小 和 最 大 的 元 素 个 数 是 多 少 ? 

假设 工 是 含有 根据 递归 操作 Move-to-Front 启发 式 得 到 的 一 系列 n 个 元 素 的 列表 。 试 描述 一 些 
时 间 复 杂 度 为 O(n) 的 逆 置 链表 的 访问 方法 。 

假设 根据 递归 操作 Move-to-Front 得 到 一 个 含有 个 元 素 的 链表 二 。 试 着 给 出 一 个 天 次 的 访问 
序列 ， 确 保 其 能 够 在 Q(n’) 的 时 间 内 完成 。 

为 FavoritesList 类 实现 clear) 方法 ， 用 于 清空 列表 。 

为 FavoritesList 类 实现 reset counts() 方法 ， 使 其 将 列表 中 所 有 元 素 的 访问 计数 重 置 为 0 Of 
保持 链表 中 各 元 素 的 顺序 不 变 )。 


使 用 一 个 包含 头 哨 兵 的 单 向 链表 实现 栈 的 抽象 数据 结构 。 

使 用 一 个 包含 头 哨兵 的 单 向 链表 实现 队列 的 抽象 数据 结构 。 

为 LinkedQueue 类 实现 一 个 concatenate(Q2) 方法 ， 该 方法 将 获取 LinkedQueueQ2 的 所 有 元 
素 ， 并 将 其 附加 在 原来 队列 的 尾部 。 该 方法 必须 在 0(1) 的 时 间 内 完成 ， 并 且 最 终 的 结果 是 
Q2 将 会 成 为 一 个 空 队列 。 

给 出 实现 单 向 链表 类 的 递归 算法 ， 使 得 非 空 列表 的 一 个 实例 存储 它 的 第 一 个 元 素 和 余下 元 素 
的 指针 。 

给 出 一 个 快速 高 效 的 逆 置 单 向 链表 的 递归 算法 。 

仅 使 用 固定 数量 的 额外 空间 ， 并 且 不 使 用 任何 递归 ,详细 阐 述 一 个 逆 置 单 向 链表 工 的 算法 。 
练习 P-6.35 描述 了 一 个 LeakyStack 的 抽象 结构 。 使 用 单 向 链表 作为 存储 实现 它 的 抽象 数据 
结构 。 

在 一 个 单 向 链表 上 抽象 操作 ， 以 设计 一 个 forward list 抽象 数据 结构 ， 就 如 同 在 带 有 位 置信 
息 的 链表 的 抽象 数据 结构 上 使 用 抽象 双向 链表 一 样 。 实 现 一 个 能 够 支持 这 种 抽象 数据 结构 的 
ForwardList 类 。 

设计 一 个 循环 的 含 位 置信 息 的 链表 的 抽象 数据 结构 ， 它 能 够 像 抽象 双向 链表 一 样 抽象 单 向 链 
表 。 在 列表 中 给 出 一 个 指定 的 光标 的 位 置 。 

改造 _DoublyLinkedBase 类 ， 使 其 包括 一 个 能 够 道 置 链表 元 素 的 reverse 方法 ， 而 不 生成 或 者 
破坏 任何 一 个 节点 。 

修改 PositionalList 类 ， 使 其 支持 方法 swap(p, q)， 该 方法 能 够 从 根本 上 将 节点 处 于 p 和 gq 位 
置 的 节点 进行 交换 。 重 新 链接 所 有 现存 的 节点 而 不 生成 任何 新 的 节点 。 

为 了 实现 PositionalList 类 的 iter 方法 ,我 们 用 Python 的 generator 语法 和 yield 语句 ， 通 过 设 
ib— ^ BOE iterator 类 ， 给 出 iter 方法 的 可 选择 的 实现 方式 (参考 2.3.4 节 和 迭代 器 的 讨论 )。 
使 用 双向 链表 给 出 一 种 PositionalList 抽象 数据 结构 的 实现 方法 ， 该 双向 链表 不 包括 任何 哨兵 
节点 。 

现 有 一 个 包含 n 个 非 降序 整数 的 PositionalList 世 ， 给 出 一 个 整数 上 ， 试 实现 一 个 函数 ， 使 其 在 
O(n) 时 间 内 能 够 判断 出 在 工 中 是 否 存在 两 个 元 素 的 和 等 于 V. 如果 找 到 了 ， 该 函数 需要 返回 
该 两 个 元 素 的 位 置信 息 ; 反之 , 返回 None. 


194 


C-7.38 


C-7.39 


C-7.40 


C-7.41 


C-7.42 


C-7.43 


项 目 


P-7.44 


P-7.45 


P-7.46 


P-7.47 


g7€ 


现在 有 一 个 简单 但 并 不 高 效 的 算法 bubble-sort， 用 于 对 列表 工 中 所 包含 的 n 个 可 比较 元 素 进 
行 排序 。 该 算法 对 列表 进行 n -1 次 扫描 ， 在 每 次 扫描 过 程 中 ,算法 对 当前 值 与 下 一 个 值 进 
ITER, 并且 当 它们 乱 序 时 交换 它们 。 将 一 个 含 位 置信 息 的 列表 工作 为 参数 实现 bubble sort 
函数 。 假 设 这 个 含 位 置信 息 的 列表 是 通过 一 个 双向 链表 实现 的 ， 那 么 该 算法 的 执行 时 间 是 
多 少 ? 

为 了 对 FIFO 队列 的 元 素 可 能 在 到 达 队 首 之 前 就 被 删除 的 情况 更 好 地 建 模 ， 设 计 一 个 
PositionalQueue 类 ， 使 其 能 够 支持 完全 队列 抽象 数据 类 型 。 入 队 会 返回 一 个 位 置 实例 并 且 支 
持 一 个 新 的 delete(p) 方法 ， 该 方法 能 够 移 除 与 位 置 p 相关 的 元 素 。 你 需要 使 用 PositionalList 
作为 存储 ， 然 后 使 用 6.1.2 节 所 阐述 的 适配器 进行 模式 设计 。 

给 出 一 个 高 效 的 维护 链表 工 的 方法 ， 在 Move-to-Front 启发 式 递归 下 ,将 自动 从 列表 中 删除 那 
些 最 近 n 次 访问 中 没有 被 访问 的 元 素 。 

练习 C-5.29 介绍 了 两 个 数据 的 自然 连接 的 概念 。 给 出 并 分 析 一 个 将 包含 n PCR MN GER A 和 
包含 m 个 元 素 的 链表 B 进行 自然 连接 的 高 效 算法 。 

不 采用 5.5.1 中 使 用 的 数组 ， 而 是 使 用 单 向 链表 来 写 一 个 Scoreboard 类 ， 使 其 能 够 保存 游戏 应 
用 程序 中 的 前 十 名 的 分 数 。 

通过 将 一 个 链表 分 成 两 个 的 方式 给 出 一 个 对 含有 2n 个 元 素 的 链表 的 洗 牌 的 算法 。 一 次 洗 牌 ， 
就 是 把 链表 工分 成 L 和 工 ;两 部 分 的 一 个 排列 ， 其 中 工 AL 的 前 面 一 半 , Ll 是 工 的 后 面 一 半 。 
然后 ,将 两 个 队列 合并 ， 第 一 个 元 素 放 入 工 的 第 一 个 ， 第 二 个 元 素 是 Li 的 第 一 个 元 素 。 接 着 
第 三 个 是 工 的 第 二 个 ， 第 四 个 是 L 的 第 二 个 …… 以 此 类 推 。 


编写 一 个 简单 的 文字 编辑 器 ， 使 用 位 置 列表 的 ADT 和 一 个 能 够 突出 字符 串 位 置 的 光标 对 象 。 
该 编辑 器 能 够 存储 并 显示 字符 串 ， 一 个 简单 的 接口 是 打印 出 字符 串 ， 然 后 使 第 二 行 显示 一 个 
移动 的 光标 。 该 编辑 器 应 该 支持 如 下 操作 : 

e left: 将 光标 向 左 移动 一 个 字符 (如 果 光 标 在 开始 处 ， 则 不 进行 任何 操作 )。 

e right: 将 光标 向 右 移 动 一 个 字符 (如 果 光 标 在 末尾 处 ， 则 不 进行 任何 操作 )。 

e insert c: 在 光标 后 面 插入 一 个 字符 co 

e delete: 删除 光标 后 面 的 字符 (如果 光标 在 末尾 处 ， 则 不 进行 任何 操作 )。 

当 一 个 数组 4 中 的 大 部 分 记录 为 空 时 ， 我 们 称 它 为 稀 区 数组。 我 们 可 以 使 用 一 个 列表 工 来 有 
效 地 实现 这 样 的 数组 。 特 别 是 ， 对 于 每 个 非 空 元 素 4[i]， 我 们 可 以 在 列表 工 中 存储 一 条 (i, e) 
记录 ， 其 中 e 是 存储 在 4[i] 中 的 元 素 。 这 个 方法 使 我 们 能 够 使 用 O(m) 的 空间 代替 数组 4 
的 存储 ， 其 中 m 是 数组 中 非 空 元 素 的 个 数 。 提 供 一 个 SparseArray 类 ， 使 其 最 少 支持 方法 
. getitem — (j) WI — setitem _(j,e)， 以 提供 一 个 标准 的 索引 操作 。 请 分 析 这 个 方法 的 效率 。 
尽管 我 们 已 经 使 用 了 一 个 双向 链表 实现 了 含 位 置信 息 的 链表 抽象 数据 结构 ， 但 是 也 可 以 基于 
一 个 数组 进行 实现 。 其 关键 在 于 使 用 组 合 模式 以 及 存储 位 置 条 目的 序列 ， 其 中 每 一 项 不 仅 存 
储 一 个 元 素 ， 还 存储 这 个 元 素 当 前 在 数组 中 的 位 置信 息 。 无 论 何 时 ， 当 数组 中 元 素 的 位 置 发 
生 改 变 时 ， 都 需要 更 新 位 置 的 索引 记录 以 保持 一 致 。 试 给 出 一 个 提供 这 样 一 种 基于 数组 实现 
带 有 位 置信 息 链表 的 抽象 数据 类 型 的 类 ， 并 分 析 各 种 操作 的 效率 。 

实现 一 个 CardHand 类 ， 该 类 能 够 支持 洗 牌 操作 。 模 拟 器 使 用 一 个 含 信息 的 单 向 链表 的 ADT 
来 表示 一 副 牌 ， 这样 相同 花色 的 牌 可 以 放 在 一 起 。 借 助 4 根 手 指 实现 这 一 策略 ， 每 两 根 手指 
夹 住 红 桃 、 草 花 、 黑 桃 和 方块 中 的 一 种 花色 。 这 样 可 以 在 常数 时 间 内 添加 一 张 牌 或 者 取出 一 
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张 牌 。 这 个 类 应 该 支持 如 下 的 方法 : 

e add card(r,s): 在 花色 s 的 牌位 置 r 处 添加 一 张 新 牌 。 

e play(s) : 从 花色 s 的 牌 中 移 除 或 者 取出 一 张 牌 ， 如 果 s 中 没有 牌 ， 则 从 手中 任意 移 除 或 者 
取出 一 张 牌 。 

e — iter. (): 遍历 当前 手中 的 所 有 有 牌 。 

e all of suit(s): 遍历 手中 花色 是 s 的 所 有 有 牌 。 


扩展 阅读 

类 似 于 集合 的 数据 结构 的 综述 (和 其 他 面向 对 象 设计 的 规则 ) 可 以 在 由 Booch, Budd?! 
Goldberg 和 Robson, Liskov 和 Guttag"" 编写 的 面向 对 象 设计 的 书 中 找到 。 位 置信 息 表 ADT MF 
Aho, Hopcroft 和 Ullman P 介绍 的 “位 置 ”的 抽象 以 及 Wood" 的 ADT 列表 。 链 表 的 实现 由 Knuth! 
进行 了 讨论 。 


第 8 章 | 


Data Structures and Algorithms in Python 


树 





8.1 树 的 基本 概念 


生产 力 专家 说 ， 突 破 来 源 于 “ 非 线性 ”地 思考 问题 。 在 本 章 中 ， 我们 来 讨论 一 种 最 重要 
的 非 线性 数据 结构 一 一 树 (tree)。 在 数据 的 组 织 中 ， 树 结构 的 确 是 一 个 突破 ， 因 为 我 们 用 它 
实现 的 一 系列 算法 比 使 用 线性 数据 结构 (诸如 基于 数组 的 列表 或 者 链表 ) 要 快 得 多 。 树 也 为 
数据 提供 了 一 个 更 加 真实 、 自 然 的 组 织 形式 ， 并 由 此 在 文件 系统 、 图 形 用 户 界面 、 数 据 库 、 
网 站 和 其 他 计算 机 系统 中 得 以 广泛 使 用 。 

生产 力 专 家 口中 的 “ 非 线性 ”思维 并 不 总 是 那么 清晰 明了 ,但 是 说 树 形 结构 是 “ 非 线性 ” 
时 ， 我 们 指 的 是 一 种 组 织 关系 ， 这 种 组 织 关系 要 上 比 一 个 序列 中 两 个 元 素 之 间 简 单 的 “前 ”和 
“后 ”关系 更 加 丰富 和 复杂 。 这 种 关系 在 树 中 是 分 层 的 ( hierarchical)， 因 为 一 些 元 素 是 处 于 
“上 面 的 "， 而 另 一 些 是 处 于 “下 面 的 ”。 事 实 上 ， 树 形 数据 结构 的 主要 术语 来 源 于 家 谱 ， 因 
为 术语 “双亲 ” “孩子 ” “祖先 ”和 “子孙 ”在 描述 这 些 关 系 时 最 为 常见 。 图 8-1 所 示 即 为 一 
个 家 谱 图 示例 。 
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图 8-1 WHILE (Abraham) 后 代 的 家 谱 图 ， 记 录 在 《创世纪 ) (Genesis) 的 第 25 — 36 章 
8.1.1 树 的 定义 和 属性 


树 是 一 种 将 元 素 分 层次 存储 的 抽象 数据 类 型 。 除 了 最 项 部 的 元 素 ， 每 个 元 素 在 树 中 都 有 
一 个 双亲 节点 和 零 个 或 者 多 个 孩子 节点 。 通 常 ， 我 们 通过 将 元 素 放置 在 一 个 椭圆 形 或 者 圆 形 
中 并 且 通 过 直线 将 双亲 节点 与 孩子 节点 相连 来 图 示 化 一 棵 树 ， 如 图 8-2 所 示 。 我 们 通常 称 最 
顶部 元 素 为 树 根 (root)， 在 图 示 中 它 被 作为 最 顶部 的 元 素 ， 因 为 其 他 元 素 都 被 连接 在 它 的 下 
面 (这 与 一 棵 真实 世界 中 的 树 恰恰 相反 )。 
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图 8-2 ”一 棵 代表 一 个 虚拟 公司 组 织 的 树 ， 拥 有 17 个 节点 。 根 存储 的 是 Elect- 
ronics RUs。 根 的 孩子 节点 分 别 存储 的 是 R&D Sales, Purchasing 和 
Manufacturing。 内 部 节点 存储 Sales, International, Overseas, Electroni- 
cs R’Us 和 Manufacturing 


正式 的 树 定 义 

通常 我 们 将 树 了 定义 为 存储 一 系列 元 素 的 有 限 节点 集合 ， 这 些 节 点 具有 parent-children 
关系 并 且 满 足 如 下 属性 : 

e 如 果树 了 不 为 空 ， 则 它 一 定 具有 一 个 称 为 根 节 点 的 特殊 节点 ， 并 且 该 节点 没有 父 节点 。 

e 每 个 非 根 节点 v 都 具有 唯一 的 父 节 点 w， 每 个 具有 父 节 点 w 的 节点 都 是 节点 w 的 一 

个 孩子 。 

注意 ,根据 上 述 定 义 ， 一 棵 树 可 能 为 空 ， 这 意味 着 它 不 含有 任何 节点 。 这 个 约定 也 允许 
我 们 递归 地 定义 一 棵 树 ， 以 使 这 棵 树 EAA, 要 么 包含 一 个 节点 + (其 称 为 树 了 的 根 节 
点 )， 其 他 一 系列 子 树 的 根 节点 是 关 的 孩子 节点 。 

其 他 节点 关系 

同一 个 父 节 点 的 孩子 节点 之 间 是 兄弟 关系 。 一 个 没有 孩子 的 节点 v 称 为 外 部 节点 。 一 个 
有 一 个 或 多 个 孩子 的 节点 v 称 为 内 部 节点 。 外 部 节点 也 称 为 叶子 节点 。 

例题 8-1 : 在 4.1.1 节 中 ,我 们 讨论 了 计算 机 文件 系统 中 文件 与 目录 之 间 的 分 层 关系 ， 
尽管 那个 时 候 没有 强调 文件 系统 是 树 关系 。 我 们 重 温 一 下 先前 的 例子 ， 如 图 8-3 所 示 。 我 们 
可 以 看 到 树 的 内 部 节点 对 应 着 文件 的 目录 ， 而 叶子 节点 对 应 着 文件 。 在 UNIX 和 Linux 操作 
系统 中 ， 树 的 根 节 点 称 为 “ 根 目 录 "， 用 符号 “/” 表 示 。 

如 果 zx=v， 那 么 节点 2# 是 节点 v 的 祖先 或 者 是 节点 v 父 节点 的 祖先 。 相 反 ， 如 果 节 点 
&U 是 节点 的 一 个 祖先 ， 那 么 节点 v 就 是 节点 x 的 一 个 子孙 。 例 如 ， 在 图 8-3 中 ，cs252/ 是 
papers/ 的 一 个 祖先 而 pr3 是 cs016/ 的 一 个 子孙 。 以 节点 为 根 节点 的 子 树 包 含 树 了 中 节 
点 v 的 所 有 子孙 (包括 节点 v 本身 )。 在 图 8-3 中 ， 以 cs016/ 为 根 节 点 的 子 树 包含 的 节点 为 
cs016/, grades, homeworks/, programs/, hwl, hw2, hw3, prl, pr2 和 pr3 。 

树 的 边 和 路 径 

树 7 的 一 条 边 指 的 是 一 对 节点 (u,v), uJ& v 的 父 节 点 或 > 是 xz 的 父 节 点 。 树 了 当中 的 
路 径 指 的 是 一 系列 的 节点 ， 这 些 节点 中 任意 两 个 连续 的 节点 之 间 都 是 一 条 边 。 例 如 ， 图 8-3 
包含 了 路 径 (cs252/, projects/, demos/, market) 。 
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图 8-3 一 棵 表示 一 个 部 分 文件 系统 的 树 


例题 8-2: 在 一 个 Python 程序 中 ， 当 使 用 单 继承 时 ， 类 与 类 之 间 的 继承 关系 形成 了 一 棵 
树 。 例 如 , 2.4 节 给 出 了 Python 异常 类 结构 层次 的 总 结 ， 正 如 图 8-4 所 示 的 一 样 (LA 2-5). 
这 个 BaseException 类 是 该 层次 结构 的 根 ， 而 所 有 用 户 自 定 义 的 异常 类 按照 惯例 都 应 该 声明 
为 更 加 具体 的 异常 类 的 后 代 。( 例 如 ， 第 6 章 代码 段 6-1 中 的 Empty X.) 





SystemExit KeyboardInterrupt 












( ValueErrr 
indexer} Cei ] 
图 8-4 Python 异常 类 层次 结构 的 一 个 部 分 


在 Python 中 ， 所 有 类 被 组 织 成 单一 的 层次 结构 ， 因 为 存在 一 个 名 为 object 的 内 置 类 作 
为 最 终 的 基 类 。 在 Python 中 ， 它 是 所 有 其 他 类 型 的 直接 或 者 间接 的 基 类 (即使 在 定义 的 时 
候 并 没有 这 样 声明 )。 因 此 ， 图 8-4 所 示 的 部 分 只 是 Python 类 层次 结构 的 一 部 分 。 

作为 对 本 章 剩 余部 分 的 一 个 预览 ， 图 8-5 所 示 即 为 类 的 层次 结构 ， 这 些 类 用 于 表示 各 种 
形式 的 树 。 
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图 8-5 一 个 模拟 各 种 树 数据 结构 和 各 种 抽象 结构 的 层次 结构 。 在 本 章 的 剩余 部 
分 ,我 们 详细 阐述 了 树 的 实现 ， 二 叉 树 、 链 式 二 叉 树 类 ， 以 及 如 何 设计 
树 的 链 式 结构 和 基于 数组 的 二 又 树 的 高 标准 示意 图 


有 序 树 

如 果树 中 每 个 节点 的 孩子 节点 都 有 特定 的 顺序 ， 则 称 该 树 为 有 序 树 ， 我 们 将 一 个 节点 的 
孩子 节点 依次 编号 为 第 一 个 、 第 二 个 、 第 三 个 等 。 通 常 我 们 按照 从 左 到 右 的 顺序 对 兄弟 节点 
进行 排序 。 

例题 8-3 : 考虑 结构 化 文档 的 内 容 ， 诸 如 一 本 书 按 树 的 样式 分 层 组 织 ， 它 的 内 部 节点 由 
章节 构成 ， 它 的 叶子 节点 由 段落 、 表 格 、 图 片 等 构成 〈 见 图 8-6 )， 树 的 根 节点 是 书本 身 。 事 
实 上 ， 我 们 可 以 进一步 考虑 对 此 进行 扩展 ， 如 段落 又 是 由 句子 组 成 的 ， 而 句子 又 是 由 单词 构 
成 的 ， 单 词 又 是 由 一 个 个 字母 组 成 的 。 这 就 是 一 哥 有 序 树 的 典型 例子 。 因 为 它们 的 每 个 孩子 
节点 都 具有 很 好 的 顺序 。 


DO-A = O-O 
图 8-6 一 棵 与 书 相关 的 有 序 树 


让 我 们 回顾 一 下 已 经 描述 的 树 的 例子 ， 然 后 进一步 深入 思考 孩子 的 顺序 是 否 有 意义 。 正 
如 图 8-1 描述 的 家 庭 关 系 树 ， 它 总 是 根据 成 员 的 出 生 时 间 被 模拟 成 一 棵 有 序 树 。 

相 比 之 下 ， 一 个 公司 的 组 织 结构 图 ( 见 图 8-2) 却 通 常 被 认为 是 一 棵 无 序 树 。 同 样 ， 当 
使 用 一 棵 树 来 描述 继承 关系 的 分 层 结构 时 ， 正 如 图 8-4 所 述 ， 对 一 个 父 类 的 子 类 而 言 顺序 并 
没有 特别 的 意义 。 最 后 ， 我 们 考虑 用 树 来 描述 计算 机 的 文件 系统 ， 如 图 8-3 所 示 ， 尽 管 操作 
系统 经 常 按照 特定 的 顺序 显示 目录 (例如 ， 按 字母 或 者 时 间 顺 序 ), 但 是 这 样 的 顺序 对 于 文 
件 系 统 的 显示 而 言 通常 不 是 固定 的 。 


8.1.2 ” 树 的 抽象 数据 类 型 


正如 我 们 在 7.4 节 做 的 位 置 列表 ,我们 用 位 置 作为 节点 的 抽象 结构 来 定义 树 的 抽象 数据 
结构 。 一 个 元 素 存储 在 一 个 位 置 ， 并 且 位 置信 息 满足 树 中 的 父 节 点 与 孩子 节点 的 关系 。 一 棵 
树 的 位 置 对 象 支持 如 下 方法 : 

o p.element(): 返回 存储 在 位 置 p 中 的 元 素 。 

树 的 抽象 数据 类 型 支持 如 下 访问 方法 。 人 允许 使 用 者 访问 一 棵 树 的 不 同位 置 : 

e T.root(): 返回 树 T 的 根 节点 的 位 置 。 如 果树 为 空 ， 则 返回 None. 

e Tis root(p): 如 果 位 置 p 是 树 T 的 根 ， 则 返回 True. 

e T.parent(p) : 返回 位 置 为 p 的 父 节 点 的 位 置 。 如 果 p 的 位 置 为 树 的 根 节 点 ， 则 返回 

None。 
e T.num children(p): 返回 位 置 为 p 的 孩子 节点 的 编号 。 
e T.children(p): 产生 位 置 为 p 的 孩子 节点 的 一 个 迭代 。 
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T.is leaf(p): 如 果 位 置 节点 p 没有 任何 孩子 ， 则 返回 True. 
len(T): 返回 树 T 所 包含 的 元 素 的 数量 。 

T.is_empty(): 如 果树 T 不 包含 任何 位 置 ， 则 返回 True. 
T.positions(): 迭代 地 生成 树 T 的 所 有 位 置 。 

iter(T): 迭代 地 生成 存储 在 树 T 中 的 所 有 元 素 。 

以 上 所 有 方法 都 接受 一 个 位 置 作为 参数 ,但 是 如 果树 了 中 的 这 个 位 置 是 无 效 的 ， 则 调用 
它 就 会 触发 一 个 VaiueError。 

如 果 一 棵 树 了 7 是 有 序 树 ， 那 么 执行 方法 T.children(p) 就 会 返回 孩子 节点 p 本 身 的 顺序 。 
如 果 p 是 一 个 叶子 节点 ， 那 么 执行 方法 T.children(p) 就 会 导致 一 个 空 的 和 迭代。 与 此 类 似 ， 如 
果树 7 为 空 ， 那 么 执行 方法 T.positions() 和 iter(T) 也 会 导致 一 个 空 迭 代 。 我 们 将 在 8.4 节 通 
过 一 棵 树 的 所 有 位 置 来 讨论 迭代 生成 方法 。 

我 们 暂时 还 没有 定义 任何 生成 或 者 修改 树 的 方法 ， 而 更 乐于 结合 一 些 树 接口 的 特定 实现 
和 一 些 树 的 特定 应 用 来 描述 不 同 树 的 更 新 方法 。 

Python 中 树 的 抽象 基 类 

2.1.2 节 讨 论 的 抽象 的 面向 对 象 的 设计 原则 中 ， 我 们 注意 到 Python 中 一 个 抽象 数据 类 型 
的 公共 接口 经 常 是 通过 duck typing 管理 的 。 例 如 ， 我 们 在 6.2 节 定 义 了 一 个 队列 ADT 的 公 
共 接 口 概念 (例如 ，6.2.2 节 的 基于 数组 的 队列 ，7.1.2 节 的 链表 ，7.2.2 节 的 循环 链表 )。 但 
我 们 在 Python 中 从 来 没有 给 出 队列 ADT 的 任何 正式 的 定义 ; 所 有 具体 实现 方法 都 是 独立 的 
类 ， 这 些 独立 的 类 遵循 相同 的 公共 接口 。 一 种 更 正式 的 用 于 指定 具有 相同 抽象 但 不 同 的 实现 
方法 之 间 的 关系 的 机 制 ， 是 通过 类 的 定义 ， 这 个 类 是 抽象 的 基 类 ， 它 将 通过 继承 产生 一 个 或 
更 多 的 具体 类 ( 见 2.4.3 节 )。 

在 代码 段 8-1 中 ， 我 们 选择 定义 一 个 Tree 类 充当 一 个 与 树 的 抽象 数据 结构 相关 的 抽象 
基 类 。 之 所 以 这 样 做 ， 是 因为 我 们 可 以 提供 相当 多 的 可 用 代码 ， 即 使 是 在 这 个 抽象 级 别 ， 在 
随后 树 的 具体 方法 实现 中 也 允许 更 多 代码 的 重用 。 树 的 类 提供 了 钳 套 类 (这 些 类 也 是 抽象 的 ) 
的 定义 和 树 ADT 中 许多 访问 方法 的 申明 。 

然而 ， 我 们 定义 的 Tree 类 并 没有 定义 存储 树 的 任何 内 部 表示 ， 并 且 在 代码 段 中 给 出 的 
5 个 方法 (root, parent, num children.children 和 len _) 仍然 是 抽象 的 。 每 个 方法 都 会 触 
A —^r NotImplementedError() (一 个 更 加 正式 的 定义 抽象 方法 和 基 类 的 方法 是 使 用 2.4.3 节 
描述 的 Python 的 abc 模块 )。 比 如 孩子 节点 ， 为 了 给 每 个 行为 提供 一 个 实现 ， 子 类 基于 它们 
自选 的 内 部 表示 来 重 写 抽象 方法 。 

尽管 Tree 类 是 一 个 抽象 的 基 类 ， 但 它 包 括 几 个 具体 的 实现 方法 ， 这 些 方法 依赖 类 的 抽 
象 方法 的 调用 。 在 先前 章节 树 的 抽象 数据 结构 的 定义 中 , 我 们 声明 了 10 种 访问 方法 。 其 中 
的 5 个 是 抽象 的 ， 在 代码 段 8-1 中 给 出 。 剩 下 的 5 个 是 基于 前 面 5 个 实现 的 。 代 码 段 8-2 列 
出 了 方法 is_root、is_leaf 和 is_empty 的 具体 实现 。 在 8.4 节 中 ， 我 们 将 会 探索 树 的 遍历 方 
法 ， 其 能 够 为 位 置 的 确定 和 iter “方法 提供 一 个 具体 的 实现 。 这 种 设计 的 好 处 是 ， 在 树 的 
抽象 基 类 中 定义 的 所 有 具体 方法 都 能 被 它 的 子 类 所 继承 。 这 有 助 于 代码 重用 ， 因 为 对 子 类 而 
言 没 有 重新 实现 这 些 方法 的 必要 。 

可 以 注意 到 ， 由 于 树 类 是 抽象 的 ， 因 此 我 们 没有 理由 为 其 创建 一 个 实例 ， 或 者 即使 创建 
了 一 个 实例 ， 这 个 实例 也 是 没有 用 的 。 这 个 类 的 存在 只 是 作为 其 他 子 类 用 于 继承 的 基础 ， 用 
户 将 会 创建 具体 子 类 的 实例 。 
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ROR 8-1 树 的 抽象 基 类 的 一 部 分 ( 后 接 代码 段 8-2 ) 


| class Tree: 

2 "=" Abstract base class representing a tree structure." "" 

3 

4 0 #-------—----------------—--- nested Position class ----—----------—------------ 
5 class Position: 

6 """ An abstraction representing the location of a single element." "" 

7 

8 def element(self): 

9 """Return the element stored at this Position." " " 
10 raise NotlmplementedError('must be implemented by subclass') 


12 def .. eq. (self, other): 


13 """Return True if other Position represents the same location." " " 

14 raise NotlmplementedError('must be implemented by subclass') 
15 

16 def . ne. (self, other): 

17 """Return True if other does not represent the same location." "" 

18 return not (self == other) # opposite of _eq_- 

19 

20 + -----——- abstract methods that concrete subclass must support ----~----- 
21 def root(self): 

22 """ Return Position representing the tree's root (or None if empty).""" 
23 raise NotlmplementedError('must be implemented by subclass') 
24 

25 def parent(self, p): 

26 """ Return Position representing p's parent (or None if p is root). "" 

27 raise NotlmplementedError('must be implemented by subclass') 
28 

29 def num.children(self, p): 

30 """ Return the number of children that Position p has." "" 

31 raise NotlmplementedError('must be implemented by subclass') 


33 def children(self, p): 


34 """ Generate an iteration of Positions representing p's children." " " 

35 raise NotlmplementedError('must be implemented by subclass') 
36 

37 def ..len. (self): 

38 """ Return the total number of elements in the tree." "" 

39 raise NotlmplementedError('must be implemented by subclass') 


代码 段 8-2 ”抽象 基 类 的 一 些 具体 方法 


40 jp ---------- concrete methods implemented in this class -—------ 
4| def is_root(self, p): 

42 """ Return True if Position p represents the root of the tree." " " 
43 return self.root( ) == p 

44 

45 def is_leaf(self, p): 

46 """ Return True if Position p does not have any children." "" 
47 return self.num.children(p) == 0 

48 

49 def is empty(self): 

50 """ Return True if the tree is empty." "" 

51 return len(self) == 


8.1.3 计算 深度 和 高 度 
假定 p 是 树 T 了 中 的 一 个 节点 ,那么 p 的 深度 就 是 节点 p 的 祖先 的 个 数 ， 不 包括 p 本 身 。 
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例如 ， 在 图 8-2 的 树 中 ， 节 点 International 的 深度 为 2。 需 要 注意 的 是 ， 这 种 定义 表明 树 的 
根 节点 的 深度 为 0。p 的 深度 同样 也 可 以 按 如 下 递归 定义 : 

e 如 果 p 是 根 节 点 ， 那 么 p 的 深度 为 0。 

e FW, p 的 深度 就 是 其 父 节点 的 深度 加 1。 

基于 这 个 定义 ， 我们 在 代码 段 8-3 中 给 出 了 计算 树 中 一 个 节点 p 的 深度 的 简单 递归 算 
法 。 该 算法 递归 地 调用 自身 。 


代码 段 8-3 ” 树 类 中 计算 深度 的 算法 
52 def depth(self, p): 


53 """ Return the number of levels separating Position p from the root." "" 
54 if self.is root(p): 

55 return 0 

56 else: 

57 return 1 + self.depth(self.parent(p)) 


对 于 位 置 p， 方 法 T.depth(p) 的 运行 时 间 是 O(d,+ 1), HP a, RER TP p PAW 
度 ， 因 为 该 算法 对 于 p 的 每 个 祖先 节点 执行 的 时 间 是 常数 。 因 此 算法 T.depth(p) 在 最 坏 的 情 
况 下 运行 时 间 为 Oln) EF n 是 树 中 节点 的 总 个 数 。 因 为 如 果 所 有 节点 组 成 一 个 分 支 ， 那 
么 其 中 存在 一 个 节点 的 深度 将 为 n - 1。 尽 管 这 个 运行 时 间 是 输入 大 小 的 函数 ， 但 是 对 于 运 
行 时 间 参 数 d, 更 加 具有 决定 性 。 因 为 这 个 参数 通常 情况 下 远 小 于 no 

高 度 

树 T 中 节点 pp 的 高 度 的 定义 如 下 : 

e 如 果 p 是 一 个 叶子 节点 ， 那 么 它 的 高 度 为 0。 

e Al, 的 高 度 是 它 孩 子 节点 中 的 最 大 高 度 加 1。 

一 棵 非 空 树 T 的 高 度 是 树 根 节点 的 高 度 。 例 如 ， 图 8-2 所 示 的 树 的 高 度 为 4。 除 此 之 
外 ， 高 度 还 可 以 定义 如 下 : 

命题 8-4: 一 棵 非 空 树 了 的 高 度 等 于 其 所 有 叶子 节点 深度 的 最 大 值 。 

我 们 在 练习 R-8.3 中 给 出 了 这 个 命题 的 证 明 。 我 们 在 代码 段 8-4 中 给 出 了 一 个 算法 
heightl ， 其 作为 Tree 类 的 一 个 私有 方法 。 该 算法 基于 命题 8-4 和 代码 段 8-3 的 计算 深度 的 
算法 来 计算 一 棵 非 空 树 的 高 度 。 


代码 段 8-4 Tree 类 中 的 方法 _height1。 需 要 注意 的 是 ， 该 方法 调用 了 计算 深度 的 算法 


58 def _height1(self): # works, but O(n^2) worst-case time 
59 """ Return the height of the tree." "" 
60 return max(self.depth(p) for p in self.positions( ) if self.is leaf(p)) 


不 幸 的 是 ， 算 法 height] 并 不 高 效 。 我 们 目前 还 没有 定义 position) 方法 ， 可 以 看 到 该 
算法 的 执行 时 间 是 O(n)， 其 中 是 树 7 中 的 节点 个 数 。 因 为 heightl 算法 针对 每 个 叶子 节点 
都 调用 了 算法 depth(p)， 其 执行 时 间 为 O(n + 于,ei(d,+ 1))， 其 中 工 是 树 了 叶子 节点 的 集合 。 
在 最 坏 情 况 下 ,pei(4d,+1) 与 成 正比 ( 详 见 练习 C-8.33 ) 。 因 此 ， 算 法 heightl 在 最 坏 情 
况 下 的 执行 时 间 为 O(n?)。 

在 最 坏 情 况 下 ， 不 依赖 先前 的 递归 定义 ,我 们 可 以 更 加 高 效 地 计算 树 的 高 度 ， 使 其 执行 
时 间 为 O(n)。 为 了 这 样 做 ,我 们 将 基于 一 棵 树 中 的 某 个 位 置 参 数 化 一 个 函数 ， 并 计算 以 这 
个 节点 作为 根 节点 的 子 树 的 高 度 。 代 码 段 8-5 给 出 的 算法 height2 就 是 通过 这 种 方式 来 计算 
树 的 高 度 。 
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代码 段 8-5 ”计算 一 个 以 p 节点 为 根 节点 的 子 树 的 高 度 


61 def _height2(self, p): # time is linear in size of subtree 
62 """ Return the height of the subtree rooted at Position p." "" 

63 if self.is leaf(p): 

64 return 0 

65 else: 

66 return 1 十 max(self. height2(c) for c in self.children(p)) 


理解 算法 height2 为 什么 比 算法 heightl 更 高 效 很 重要 。 该 算法 是 递归 的 并 且 是 从 上 到 
下 执行 的 。 如 果 该 算法 最 初 在 根 节点 调用 ， 那 么 树 了 的 每 个 节点 最 终 将 会 被 调用 。 这 是 因为 
树 的 根 节点 最 终 将 在 其 每 个 孩子 节点 上 递归 调用 ， 这 反 过 来 又 将 在 每 个 节点 的 孩子 节点 中 继 
续 递 归 调 用 下 去 。 

我 们 可 以 通过 加 上 所 有 花 在 每 个 节点 上 的 递归 调用 的 时 间 来 计算 算法 height2 的 运行 时 
ja] (复习 4.2 节 递 归 调 用 的 分 析 过 程 ) 。 在 实现 方法 中 ， 对 于 每 个 节点 ， 有 一 个 不 变 的 常量 以 
及 计算 每 个 孩子 节点 的 最 大 负载 。 尽 管 我 们 还 没有 构造 children(p) 的 实现 方法 , 但 可 以 假设 
生成 时 间 是 O(c, + 1), KB c, 是 己 节 点 孩子 节点 的 个 数 。 算 法 height2 在 每 个 节点 上 最 多 需 
要 花 O(c,-- 1) 的 时 间 ， 所 以 整个 时 间 为 OCD (cp + 1)) = O(n + 二 pcp)。 为 了 完成 分 析 ， 我 们 
使 用 如 下 定义 。 

命题 8-5: 假设 T 是 一 哥 有 nn 个 节点 的 树 ， 并 假设 cp 代表 树 T 了 中 位 置 p 的 孩子 节点 的 个 
数 ， 那 么 了 中 所 有 节点 的 位 置 之 和 为 ppn- lo 

证 明 : 树 了 中 除了 根 节点 外 的 每 个 位 置 ， 都 是 另 一 个 节点 的 孩子 节点 ， 并 且 都 会 成 为 上 
面 公 式 的 一 项 。 a 

由 命题 8-5 可 知 ， 在 根 节点 调用 算法 height2 时 ， 其 执行 时 间 为 O(n)， 其 中 为 树 中 节 
点 的 个 数 。 

重新 访问 Tree 类 的 公共 接口 ， 计 算 子 树 的 高 度 是 有 益 的， 但 是 用 户 可 能 希望 能 够 计算 
整个 树 的 高 度 而 不 需要 显 式 地 指定 树 的 根 节点 。 我 们 可 以 通过 一 个 公有 的 height 方法 将 非 公 
有 的 方法 height2 封装 在 实现 方法 中 。 在 树 了 中 调用 Theight() 方法 时 ，height 方 法 提供 了 
一 个 默认 的 解释 。 其 实现 的 过 程 如 代码 段 8-6 所 示 。 


代码 段 8-6 ”计算 整个 树 或 者 一 个 给 定位 置 作为 根 节 点 的 子 树 的 高 度 的 Tree.height 方法 
67 def height(self, p=None): 


68 """ Return the height of the subtree rooted at Position p. 

69 

70 If p is None, return the height of the entire tree. 

7 id 

72 if p is None: 

73 p = self.root( ) 

74 return self._height2(p) # start height2 recursion 
8.2 二叉树 

二 又 树 是 具有 以 下 属性 的 有 序 树 : 

1 ) 每 个 节点 最 多 有 两 个 孩子 节点 。 


2) 每 个 孩子 节点 被 命名 为 左 孩 子 或 右 孩子 。 
3) 对 于 每 个 节点 的 孩子 节点 ， 在 顺序 上 ， 左 孩子 先 于 右 孩 子 。 
若 子 树 的 根 为 内 部 节点 v 的 左 孩子 或 右 孩 子 ， 则 该 子 树 相 应 地 被 称 为 节点 v 的 左 子 树 或 


右 子 树 。 若 每 个 节点 都 有 零 个 或 两 个 节点 ， 则 这 样 的 二 又 树 为 完全 三 又 树 。 一 些 人 也 把 这 种 
树 称 为 满 二 又 树 。 因 此 ， 在 完全 二 又 树 中 ， 每 个 内 部 节点 都 恰好 有 两 个 孩子 。 若 二 又 树 不 完 
全 ， 则 称 为 不 完全 二 又 树 。 

例题 8-6 : 二 又 树 的 一 个 重要 的 类 适 
用 于 这 样 的 情形 : 我 们 希望 能 (使 用 此 
X) 表示 许多 种 不 同 的 输出 结果 ， 这些 结 
果 可 以 作为 一 系列 yes-or-no 问题 的 答案 。 
每 个 内 部 节点 对 应 一 个 问题 。 从 根 节 点 
开始 ， 我 们 根据 该 问题 的 答案 是 “Yes” 
还 是 “No” 来 决定 当前 节点 是 左 孩 子 还 
是 右 孩 子 。 对 于 每 次 决定 ， 相 当 于 选择 
了 从 父 节 点 到 子 节点 的 一 条 边 ， 最 终 能 
形成 一 条 从 根 节点 到 叶 节 点 的 路 径 。 这 与 股票 ， 债 券 和 短期 工具 结合 
样 的 二 又 树 被 称 为 决策 树 ， 因 为 若 与 树 的 多 样 化 投资 组 合 
中 叶 节 点 的 祖先 节点 相关 的 问题 都 被 图 8-7 ”提供 投资 建议 的 决策 树 
回答 ， 以 得 到 p 的 结果 ， 那 么 p 即 表示 
为 一 种 需要 做 什么 的 决策 。 决 策 树 是 完全 二 又 树 。 图 8-7 给 出 了 能 给 未 来 投资 者 提供 建议 的 
一 棵 决策 树 。 

例题 8-7 : 二 又 树 能 用 于 表示 算术 表 
达 式 ， 叶 子 对 应 变量 或 常数 ， 内 部 节点 
对 应 十 、 一 、X 和 /操作 ( 见 图 8-8 )。 树 
中 的 每 个 节点 都 对 应 一 个 值 。 

e 若 节 点 为 叶 节 点 ， 则 其 值 为 变量 

或 常数 。 
e 若 节 点 为 内 部 节点 ， 则 其 值 为 对 
其 孩子 节点 值 的 操作 所 得 。 

算术 表达 式 树 是 完全 二 又 树 , 因为 EL 

每 个 +、-、x、/ 都 需要 两 个 操作 数 。 图 8-8 使 用 二 叉 树 表示 算术 表达 式 。 该 树 所 表示 的 















当然 ， 如 果 允 许 一 元 操作 符 ， 例 如 负 号 表达 式 为 ((((3 + 1) x 3((9 - 5) + 2)) - (3x (7 - 
(— AR "-x", 也 可 以 得 到 不 完全 4)) + 6))。 内 部 节点 “/” 对 应 的 值 是 2 
二 又 树 。 

递归 二 叉 树 的 定义 

我 们 也 能 够 顺便 使 用 递归 方式 定义 二 叉 树 ， 此 时 二 又 树 或 者 为 空 树 ， 或 者 由 以 下 条 件 
组 成 : 


e 二 叉 树 7 的 根 为 节点 +， 其 存储 一 个 元 素 。 
e 二 又 树 (可 能 为 空 ) 称 为 了 的 左 子 树 。 
ZLA (可 能 为 空 ) 称 为 了 的 右 子 树 。 
8.2.1 二叉树 的 抽象 数据 类 型 
作为 抽象 数据 类 型 ， 二 叉 树 是 树 的 一 种 特殊 化 ， 其 支持 3 种 额外 的 访问 方法 : 
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e Tleft(p): RA p Zc £T RU EE, xr p 没有 左 孩 子 ， 则 返回 None, 

e T.right(p): 返回 疡 右 孩 子 的 位 置 ， 若 忆 没 有 右 孩 子 ， 则 返回 None. 

e T.sibling(p): 返回 p 兄弟 节点 的 位 置 ， 若 p 没有 兄弟 节点 ， 则 返回 None. 

类 似 于 8.1.2 节 对 树 ADT 的 处 理 ， 此 处 不 专门 对 二 叉 树 定义 更 新 方法 。 而 是 在 描述 二 
义 树 具体 的 实现 和 应 用 时 ， 才 去 考虑 一 些 可 能 的 更 新 方法 。 

Python 中 的 抽象 基 类 BinaryTree 

在 8.1.2 节 中 ， 我 们 将 Tree 定义 为 抽象 基 类 。 类 似 地 ， 我 们 在 已 存在 的 Tree 类 基础 上 ， 
依据 继承 性 ， 对 二 叉 树 ADT 定义 一 个 新 的 BinaryTree 类 。 然 而 ，BinaryTree 类 保持 抽象 性 ， 
因为 对 于 这 样 的 一 个 结构 ， 我 们 并 没有 提供 完整 的 内 部 细节 描述 ， 也 没有 实现 一 些 必要 的 
行为 。 

在 代码 段 8-7 中 ， 我 们 给 出 了 BinaryTree 类 的 Python 实现 。 根 据 继承 性 ， 二 叉 树 支持 
在 一 般 的 树 中 定义 的 所 有 功能 (例如 ，parent 、is_ leaf 和 root). 32S t 47K X E HJ Position 
类 ， 该 类 一 开始 就 定义 在 Tree 类 的 定义 中 。 另 外 ， 新 类 声明 了 新 的 抽象 方法 left 和 right, 
这 些 方法 应 能 在 BinaryTree 类 的 具体 子 类 中 实现 。 

新 类 也 给 出 了 两 种 方法 的 具体 实现 。 新 的 sibling 方法 由 left, right 和 parent 结合 产生 。 
具有 代表 性 的 是 ， 我 们 把 位 置 p 的 兄弟 节点 定义 为 p 双亲 节点 的 “ 男 一 个 ”孩子 节点 。 若 p 
是 根 节 点 ， 因 为 没有 双亲 节点 ， 所 以 也 没有 兄弟 节点 。 另 外 , 可 能 是 其 双亲 节点 唯一 的 孩 
子 ， 因 而 此 时 也 无 兄弟 节点 。 

最 后 ， 代 码 段 8-7 给 出 了 children 方法 的 具体 实现 ， 该 方法 在 Tree 类 中 是 抽象 的 。 尽 
管 我 们 仍 未 具体 说 明 节 点 的 孩子 是 如 何 存 储 的 ， 但 能 通过 抽象 的 left 和 right 方法 的 隐 含 行 
为 产生 有 序 的 孩子 。 


代码 段 8-7 “从 代码 段 8-1 和 8-2 已 存在 的 Tree 抽象 基 类 中 扩展 的 BinaryTree 抽象 基 类 


| class BinaryTree(Tree): 


2 """ Abstract base class representing a binary tree structure." " " 

4 JE --------------------- additional abstract methods —------------------- 
5 def left(self, p): 

6 """ Return a Position representing p's left child. 

8 Return None if p does not have a left child 


10 raise NotlmplementedError('must be implemented by subclass!) 


12 def right(self, p): 


13 """ Return a Position representing p's right child. 
14 
15 Return None if p does not have a right child. 


17 raise NotlmplementedError('must be implemented by subclass’) 


19 # 一 一 一 concrete methods implemented in this class -一 一 -一 

20 def sibling(self, p): 

2] """ Return a Position representing p's sibling (or None if no sibling). "" 
22 parent — self.parent(p) 

23 if parent is None: # p must be the root 

24 return None # root has no sibling 

25 else: 

26 if p —— self.left(parent): 


27 return self.right(parent) # possibly None 
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28 else: 
29 return self.left(parent) # possibly None 


31 def children(self, p): 


32 """ Generate an iteration of Positions representing p's children." "" 
33 if self.left(p) is not None: 

34 yield self.left(p) 

35 if self.right(p) is not None: 

36 yield self.right(p) 


8.2.2 二 又 树 的 属性 


二 又 树 在 处 理 其 高 度 和 节点 数 的 关系 时 有 几 个 有 趣 的 性 质 。 我 们 将 位 于 树 了 同一 深度 d 
的 所 有 节点 都 视 为 位 于 7 的 d 层 。 在 下 
二 又 树 中 ，0 层 至 多 有 一 个 节点 ( 根 节 
A) 层 至 多 有 两 个 节点 ( 根 节点 的 0 
BE), 层 至 多 有 4 个 节点 ， 以 此 类 
HE ( 见 图 8-9)。 总 之 , d 层 至 多 有 2 | 


个 节点 。 i 
我 们 注意 到 ， 当 沿 着 二 又 树 往 下 ; á 
遍历 时 ， 每 层 的 最 大 节点 数 呈 指数 增 
长 。 通 过 这 个 简单 的 观察 ， 我 们 可 以 
8 





得 出 二 叉 树 7 的 高 度 与 节点 数 之 间 的 3 
性 质 。 这 些 性 质 的 详细 证 明 留 作 练 习  . n is 
TES 图 8-9 二 又 树 每 层 之 间 的 最 大 节点 数 

命题 8-8: 设 T 为 非 空 二 又 树 ，nn、 
ng, ni 和 有 分 别 表示 了 T 了 的 节点 数 、 外 部 节点 数 、 内 部 节点 数 和 高 度 ， 则 了 具有 如 下 性 质 : 

1)h-*1nx2'"'!-1 

23) =< 2" 

3)hzn x2'-1 

4)log(n*1)-1hzn-1 

另外 ， 若 了 是 完全 二 又 树 ， 则 了 具有 如 下 性 质 : 

1) 2h+1<n<2"*!-] 

2)h+1<ng <2" 

3)hzn x2'-1 

4) log(n*1)-1sx h< (n- 1)2 

完全 二 叉 树 中 内 部 节点 与 外 部 节点 的 关系 

除了 前 面 二 叉 树 的 性 质 ， 下 述 关系 存在 于 完全 二 又 树 中 内 部 节点 数 与 外 部 节点 数 之 间 。 

命题 8-9: 在 非 空 完全 二 又 树 T 中 ， 有 ng 个 外 部 节点 和 ni 个 内 部 节点 ， 则 有 ng=n1+ 1。 

TERA: 从 7 中 取 下 节点 ,并 把 它们 分 别 放 入 两 个 “ 桩 ”， 即 内 部 节点 桩 和 外 部 节点 桩 ， 
直到 7 为 空 。 两 个 桩 初始 都 为 空 。 执 行 到 最 后 ， 我 们 会 发 现 外 部 节点 桩 比 内 部 节点 桩 多 一 个 
节点 。 考 虑 以 下 两 种 情况 。 

情况 1: 若 了 仅 有 一 个 节点 v， 我 们 将 v 取 下 ， 并 把 它 放 和 外 部 节点 桩 。 因 此 ， 外 部 节 
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点 桩 有 一 个 节点 ， 而 内 部 节点 桩 为 空 。 

情况 2 : 另外 (7 多 于 一 个 节点 )， 我 们 从 T 中 取 下 一 个 (任意 的 ) 外 部 节点 w 和 其 父母 
节点 v, v 为 内 部 节点 。 我 们 将 w 放 入 外 部 节点 桩 ， 将 v 放 入 内 部 节点 桩 。 若 v 有 父母 节点 
u, Mi u 与 w 之 前 的 兄弟 节点 z 连接 起 来 ,如 图 8-10 所 示 。 此 次 操作 取 下 了 一 个 内 部 节点 
和 一 个 外 部 节点 ， 并 使 树 变 成 新 的 完全 二 又 树 。 重 复 上 述 操作 ,我们 最 后 将 会 得 到 仅 有 一 个 
节点 的 最 终 树 。 注 意 ， 在 经 过 这 样 一 系列 操作 并 得 到 最 终 树 的 过 程 中 ， 相 同 数目 的 外 部 节点 
和 内 部 节点 被 分 别 放 入 各 自 的 桩 中 。 现 在 ,我 们 将 最 终 树 的 节点 取 下 并 放 入 外 部 节点 桩 中 。 
因此 ， 外 部 节点 桩 比 内 部 节点 桩 多 一 个 节点 。 E 
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a) 
图 8-10 取 下 外 部 节点 和 其 父母 节点 的 操作 ， 该 操作 运用 于 命题 8-9 的 证 明 过 程 


注意 : 上 述 关 系 一 般 不 适用 于 不 完全 二 叉 树 和 非 二 叉 树 ， 而 其 他 有 趣 的 关系 则 能 适用 
( 见 练习 C-8.32 ~ C-8.34 )。 


8.3” 树 的 实现 

到 目前 为 止 ， 本 章 所 定义 的 Tree 和 BinaryTree 类 都 只 是 形式 上 的 抽象 基 类 。 尽 管 给 出 
了 许多 支持 操作 ， 但 它们 都 不 能 直接 被 实例 化 。 对 于 树 内 部 如 何 表 示 ， 以 及 如 何 高 效 地 在 父 
母 节 点 和 孩子 节点 之 间 进 行 切换 ， 我 们 还 没有 定义 关键 的 实现 细节 。 特 别 地 ， 具 体 实 现 树 
要 能 提供 Root, parent, num children, children 和 len 这些 方法 ， 对 于 BinaryTree 类 ， 
还 要 提供 额外 的 访问 器 left 和 right. 

对 于 树 的 内 部 表示 有 几 种 选择 。 本 节 介 绍 最 普遍 的 表示 方法 。 我 们 先 以 二 又 树 为 例 进行 
介绍 ， 因 为 它 的 形状 更 有 局 限 性 。 


8.3.1 二 叉 树 的 链 式 存储 结构 


实现 二 又 树 了 的 一 个 自然 方法 便 是 使 用 链 式 存储 结构 ， 一 个 节点 ( 见 图 8-11a) 包含 多 个 
引用 : 指向 存储 在 位 置 的 元 素 的 引用 ， 指 向 p 的 孩子 节点 和 双亲 节点 的 引用 。 若 p 是 7 的 
根 节点 ， 则 pp 的 parent FRH None, A, £p 没有 左 孩 子 (或 右 孩 子 )， 则 相关 字段 即 为 
None。 树 本 身 包 含 一 个 实例 变量 ,存储 指向 根 节点 (假如 存在 根 节点 ) 的 引用 ， 还 包含 一 个 
size Bid, RN T 的 所 有 节点 数 。 在 图 8-11b 中 ,我 们 给 出 了 表示 二 又 树 的 链 式 存 储 结构 。 

链 式 二 又 树 结构 的 Python 实现 

在 本 节 中 ， 我 们 定义 BinaryTree 类 的 一 个 具体 子 类 LinkedBinaryTree， 该 类 能 够 实现 二 
X BI ADT。 通 用 方法 非常 类 似 于 7.4 节 中 开发 PositionalList 时 所 采用 的 方法 : 定义 一 个 简 
单 、 非 公开 的 _Node 类 表示 一 个 节点 ， 再 定义 一 个 公开 的 Position 类 用 于 封装 节点 。 我 们 提 
fit validate 方法 ， 在 所 给 的 position 实例 未 封装 前 ， 能 够 强 有 力 地 验证 该 实例 的 有 效 性 。 另 
外 ， 我 们 也 提供 _make_ position 方法 ， 把 节点 封装 进 position 实例 ， 并 返回 给 调用 者 。 
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a) 单独 一 个 节点 b) 二 又 树 
图 8-11 链 式 存储 结构 表示 


代码 段 8-8 给 出 了 这 些 定义 。 从 形式 上 说 ， 新 的 Position 类 被 声明 为 直接 继承 Binary- 
Tree.Position 类 。 而 从 技术 上 说 ，BinaryTree 类 的 定义 ( 见 代码 段 8-7 ) 并 未 正式 声明 这 样 的 
一 个 内 艇 类 ， 它 仅仅 平凡 地 继承 于 Tree.Position。 这 样 设计 的 一 个 细微 优势 在 于 : Position 
类 能 够 继承 ne — 这 一 特殊 方法 ， 以 至 于 相对 于 eq 方法， 语句 p!=q 能 够 自然 地 
执行 。 


代码 段 8-8 LinkedBinaryTree 类 的 开始 ( 后 接 代码 段 8-9 — 8-11 ) 
class LinkedBinaryTree(BinaryTree): 


1 
2  """Linked representation of a binary tree structure." " " 
3 
4 . class Node: # Lightweight, nonpublic class for storing a node. 
5 --slots.. = ' element', ' parent', ' left', ' right' 
6 def . init. (self, element, parent=None, left=None, right=None): 
7 self. element — element 
8 self. parent — parent 
9 self. left — left 
10 self. right — right 
li 
12 class Position(BinaryTree.Position): 
13 """ An abstraction representing the location of a single element." "" 
14 
15 def . init. (self, container, node): 
16 """ Constructor should not be invoked by user." "" 
17 self. container — container 
18 self. node — node 
19 
20 def element(self): 
21 """ Return the element stored at this Position." " " 
22 return self. node. element 
23 
24 def | eq. (self, other): 
25 """Return True if other is a Position representing the same location." ”" 
26 return type(other) is type(self) and other. node is self. node 
27 
28 def _validate(self, p): 
29 "Return associated node, if position is valid." "" 
30 if not isinstance(p, self.Position): 
31 raise TypeError('p must be proper Position type') 
32 if p. container is not self: 


33 raise ValueError('p does not belong to this container!) 
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if p... node.. parent is p. node: # convention for deprecated nodes 
raise ValueError('p is no longer valid') 
return p. node 


def make. position(self, node): 
""" Return Position instance for given node (or None if no node) 
return self.Position(self, node) if node is not None else None 


在 代码 段 8-9 中 ， 对 类 继续 定义 了 构造 函数 ， 并 且 对 Tree 和 BinaryTree 类 的 抽象 方 
法 做 了 具体 实现 。 构 造 函 数 通过 将 _root 初始 化 为 None、 将 _size 初始 化 为 0， 能 够 创 
建 一 棵 空 树 。 实 现 访问 方法 时 ， 谨慎 使 用 了 validate 和 _make_position ， 防 止 出 现 边界 


问题 。 
代码 段 8-9 LinkedBinaryTree 类 的 公开 访问 方法 。 该 类 从 代码 段 8-8 开始 ， 且 
在 代码 段 8-10 和 8-11 中 继续 
41 HMM binary tree constructor --—---------------------- 
42 def init. (self): 
43 """ Create an initially empty binary tree." "" 
44 self. root — None 
45 self. size — 0 
46 
47 Han nnn nnn public accessors --------—---------------- 
48 def __len__(self): 
49 """ Return the total number of elements in the tree." "" 
50 return self. size 
51 
52 def root(self): 
53 """ Return the root Position of the tree (or None if tree is empty).""" 
54 return self. make. position(self. root) 
55 
56 def parent(self, p): 
57 """ Return the Position of p's parent (or None if p is root).""" 
58 node — self. validate(p) 
59 return self. make. position(node.. parent) 
60 
61 def left(self, p): 
62 """ Return the Position of p's left child (or None if no left child). "" 
63 node — self. validate(p) 
64 return self. make. position(node. left) 
65 
66 def right(self, p): 
67 """ Return the Position of p's right child (or None if no right child)." "" 
68 node — self. validate(p) 
69 return self. make. position(node.. right) 
70 
71 def num.children(self, p): 
72 """ Return the number of children of Position p." "" 
73 node = self. validate(p) 
74 count = 0 
75 if node._left is not None: # left child exists 
76 count += 1 
77 if node._right is not None: # right child exists 
78 count += 1 
79 return count 
更 新 链 式 二 叉 树 的 操作 


至 此 ， 我 们 已 经 给 出 了 用 于 操作 已 存在 二 叉 树 的 函数 。 而 LinkedBinaryTree 类 的 构造 函数 
创建 了 一 棵 空 树 ， 我 们 没有 提供 任何 改变 这 种 结构 的 方法 ， 也 没有 提供 任何 填充 这 棵 树 的 方法 。 
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在 Tree 和 BinaryTree 抽象 基 类 中 ， 我 们 没有 声明 更 新 方法 的 原因 如 下 。 

首先 ， 虽然 封装 原则 表明 类 的 外 部 行为 不 需要 依赖 于 类 的 内 部 实现 ， 而 操作 的 效率 却 极 
大 地 取决 于 实现 方式 。 我 们 更 倾向 于 Tree 类 的 每 个 具体 实现 都 能 提供 更 合适 的 选择 方式 来 
更 新 一 棵 树 。 

其 次 ， 我 们 可 能 不 希望 更 新 方法 成 为 公开 接口 。 树 有 许多 应 用 ， 适用 于 其 中 一 个 应 用 
的 更 新 操作 可 能 不 被 男 一 个 应 用 所 接受 。 而 假如 我 们 在 基 类 中 声明 更 新 方法 ,继承 于 该 基 类 
的 任何 子 类 都 将 继承 这 一 方法 。 例 如 ， 考 虑 方法 T.replace(p, e) 的 可 能 性 ， 该 方法 用 元 素 e 
替换 存储 于 位 置 的 元 素 。 这 种 一 般 性 的 方法 可 能 不 适用 于 算术 表达 式 树 ( 见 例题 8-7， 在 
8.5 节 中 ， 我 们 将 会 学 习 另 一 个 例子 ) 的 情形 ， 因 为 我 们 可 能 会 强制 内 部 节点 仅 存 储 一 个 运 
算 符 。 

对 于 链 式 二 又 树 ， 支 持 日 常 使 用 的 合理 更 新 方法 如 下 : 

e T.add root(e) : 为 空 树 创建 根 节点 ,存储 元 素 e， 并 返回 根 节点 的 位 置 。 若 树 非 空 ， 
则 抛 出 错误 。 

T.add left(p, e) : 创建 新 的 节点 ， 存 储 元 素 e， 将 该 节点 链接 为 位 置 p 的 左 孩 子 ， 返 
回 结果 位 置 。 若 p 已 经 有 左 孩 子 ， 则 抛 出 错误 。 

T.add right(p, e): 创建 新 的 节点 ， 存 储 元 素 e， 将 该 节点 链接 为 位 置 p HABT, B 
回 结果 位 置 ; 若 p 已 经 有 右 孩 子 ， 则 抛 出 错误 。 

T.replace(p, e): 用 元 素 e 替换 存储 在 位 置 p 的 元 素 ， 返 回 之 前 存储 的 元 素 。 
T.delete(p) : 移 除 位 置 为 p 的 节点 ， 用 它 的 孩子 代替 自己 ， 若 有 ， 则 返回 存储 在 位 置 
p 的 元 素 ; 若 p 有 两 个 孩子 ， 则 抛 出 错误 。 

T.attach(p, T1, T2): 将 树 T1，T2 分 别 链接 为 T 的 叶子 节点 p 的 左右 子 树 ， 并 将 TI 
和 T2 重 置 为 空 树 ; 若 p 不 是 叶子 节点 ， 则 抛 出 错误 。 

之 所 以 专门 选择 这 组 操作 ， 是 因为 使 用 链接 表示 时 ， 每 个 操作 的 最 坏 运行 时 间 为 O(1). 
其 中 最 复杂 的 操作 是 delete 和 attach 操作 ， 因 为 要 分 析 有 关 的 各 种 双亲 - 孩子 关系 的 问题 和 
边界 条 件 问题 ， 还 要 保证 执行 固定 的 操作 数 。( 类 似 于 对 位 置 列表 的 处 理 ， 帮 使 用 树 的 前 哨 
节点 表示 法 ， 则 这 两 种 方法 的 实现 过 程 将 大 大 简化 ， 见 练习 C-8.40.) 

为 了 避免 不 必要 的 更 新 方法 被 LinkedBinaryTree 的 子 类 所 继承 ， 我 们 选择 所 有 方法 均 不 
采用 公开 支持 的 实现 方式 。 换 言 之 ， 我 们 对 每 种 方法 都 提供 非 公 开 的 形式 ， 例 如 ， 使 用 带 下 
划 线 的 _delete 方法 来 替换 公开 的 delete 方法 。 代 码 段 8-10 和 代码 段 8-11 给 出 了 6 种 更 新 
方法 的 实现 方式 。 


代码 段 8-10 LinkedBinaryTree 类 的 非 公 开 更 新 方法 ( 后 接 代码 段 8-11 ) 
80 def _add_root(self, e): 


81 """ Place element e at the root of an empty tree and return new Position. 
82 

83 Raise ValueError if tree nonempty 

84 sip 

85 if self. root is not None: raise ValueError('Root exists') 

86 self. size — 1 

87 self. root — self. Node(e) 

88 return self. make. position(self. root) 


89 

90 def add left(self, p, e): 

91 """ Create a new left child for Position p, storing element e 
92 


93 

94 

95 

96 

97 

98 
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Return the Position of new node. 
Raise ValueError if Position p is invalid or p already has a left child. 


node = self._validate(p) 

if node. left is not None: raise ValueError('Left child exists') 
self. size += 1 

node. left = self. Node(e, node) # node is its parent 
return self. make. position(node. left) 


def add right(self, p, e): 
""" Create a new right child for Position p, storing element e 


Return the Position of new node. 
Raise ValueError if Position p is invalid or p already has a right child. 


node — self. validate(p) 

if node. right is not None: raise ValueError('Right child exists') 
self. size 十 = 1 

node. right = self. Node(e, node) # node is its parent 
return self. make. position(node.. right) 


def _replace(self, p, e): 
""" Replace the element at position p with e, and return old element." "" 
node — self. validate(p) 
old = node. element 
node. element — e 
return old 


代码 段 8-11 LinkedBinaryTree 类 的 非 公 开 更 新 方法 ( 接 代码 段 8-10 ) 


def _delete(self, p): 
""" Delete the node at Position p, and replace it with its child, if any. 


Return the element that had been stored at Position p. 
Raise ValueError if Position p is invalid or p has two children. 


node = self._validate(p) 
if self.num.children(p) == 2: raise ValueError('p has two children') 
child = node._left if node. left else node.. right # might be None 
if child is not None: 

child._parent = node.. parent # child's grandparent becomes parent 
if node is self. root: 

self. root — child # child becomes root 
else: 

parent — node.. parent 

if node is parent. . left: 

parent. left = child 


else: 
parent. right — child 
self. size —= 1 
node..parent — node # convention for deprecated node 


return node._element 


def _attach(self, p, t1, t2): 

""" Attach trees tl and t2 as left and right subtrees of external p." 

node — self. validate(p) 

if not self.is leaf(p): raise ValueError('position must be leaf') 

if not type(self) is type(t1) is type(t2): 4 all 3 trees must be same type 
raise TypeError('Tree types must match') 

self. size += len(t1) + len(t2) 

if not t1.is empty(): # attached tl as left subtree of node 
tl. root. parent = node 
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152 node. left = t1. root 

153 tl. root = None # set tl instance to empty 

154 tl._size = 0 

155 if not t2.is empty( ): # attached t2 as right subtree of node 
156 t2. root. parent — node 

157 node. right — t2. root 

158 t2. root — None # set t2 instance to empty 

159 t2. size = 0 


在 特定 的 应 用 程序 中 ，LinkedBinaryTree 的 子 类 能 调用 内 部 非 公 开 的 方法 ， 并 提供 适用 
于 应 用 程序 的 公开 接口 。 子 类 也 可 以 使 用 公开 方法 封装 一 个 或 多 个 非 公 开 更 新 方法 供用 户 调 
用 。 我 们 将 会 在 练习 R-8.15 中 要 求 定 义 MutableLinkedBinaryTree 这 一 子 类 ， 该 子 类 能 够 提 
供 封装 6 种 公开 更 新 方法 的 任意 一 种 。 

链 式 二 叉 树 实现 方式 的 性 能 

为 了 总 结 链 式 结构 表示 法 的 效率 ， 我 们 分 析 LinkedBinaryTree 方法 的 运行 时 间 ， 其 中 包 
括 从 Tree 和 BinaryTree 类 派生 的 方法 : 

e len 方法 ,在 LinkedBinaryTree 内 部 实现 ， 使 用 一 个 实例 变量 存储 了 的 节点 数 ， 花 费 
O(1) 的 时 间 。is_empty 方法 继承 自 Tree 28, Xf len 方法 进行 一 次 调用 ， 因 此 需要 花 
费 O(1) 的 时 间 。 
访问 方法 root, left, right, parent 和 num children 直接 在 LinkedBinaryTree 中 执行 ， 
花费 O(1) 的 时 间 。sibling 和 children 方法 从 BinaryTree 类 派生 ， 对 其 他 访问 方法 做 
固定 次 的 调用 ， 因 此 ， 它 们 的 运行 时 间 也 是 O(1). 

e Tree 类 的 is root 和 is leaf 方法 都 运行 0(1) 的 时 间 ， 因 为 is_root 调用 root 方法 ， 之 
后 判定 两 者 的 位 置 是 否 相 等 ; 而 is_leaf 调用 left 和 right 方 法， 并 验证 二 者 是 否 返 回 
None。 

e depth 和 height 方法 在 8.1.3 节 中 已 做 过 分 析 。depth 方法 在 位 置 p 处 运行 O(d, 1) 的 

时 间 ， 其 中 d, 是 它 的 深度 ; height 方法 在 树 的 根 节 点 处 运行 O(n) 的 时 间 。 

各 种 更 新 方法 add root, add left, add right, replace, delete 和 attach ( 即 它们 的 非 

公开 实现 方式 ) 都 运行 0(1) 的 时 间 ， 因 为 它们 每 次 操作 都 仅仅 重新 链接 到 固定 的 节 


点 数 。 
表 8-1 总 结 了 二 叉 树 链 式 存储 结构 实现 方式 的 性 能 。 
表 8-1 使 用 链接 结构 表示 的 n 节点 二 叉 树 的 各 种 方法 的 运行 时 间 。 空 间 占 用 为 O(n) 
操作 运行 时 间 
len, is empty O(1) 
root, parent, left, right, sibling, children, num children O(1) 
is root, is leaf O(1) 
depth(p) O(d, + 1) 
height O(n) 
add root, add left, add right, replace, delete, attach O(1) 





8.3.2 ”基于 数组 表示 的 二 叉 树 


二 叉 树 7T 的 一 种 可 供 选择 的 表示 法 是 对 7T 的 位 置 进行 编号 。 对 于 7 的 每 个 位 置 p， 设 
f(D) 为 整数 日 定义 如 下 : 


e 若 p 是 7 的 根 节点 ， 则 7(p)=0。 

e 若 p 是 位 置 g 的 左 孩 子 ， 则 f(p)=2f(q) + 1。 

e 若 疡 是 位 置 gq AZT, MAp) +2. 

编号 函数 /被 称 为 二 又 树 7 的 位 置 的 层 编号 ， 因 为 它 将 7 每 一 层 的 位 置 从 左 往 右 按 递 增 
顺序 编号 ( 见 图 8-12 )。 注 意 ， 层 编号 是 基于 树 内 的 潜在 位 置 ， 而 不 是 所 给 树 的 实际 位 置 ， 
因此 编号 不 一 定 是 连续 的 。 例 如 ， 在 图 8-12b 中 ， 没 有 层 编号 为 13 或 14 的 节点 ， 因 为 层 编 
号 为 6 的 节点 没有 和 孩子。 





a) 一 般 方案 b) 一 个 例子 
图 8-12 ”二叉树 的 层 编号 


层 编号 函数 /是 一 种 二 又 树 了 依据 基于 数组 结构 4 (例如 ，Python 列表 ) 的 表示 方法 ， 
7 的 p 位置 元 素 存 储 在 数组 下 标 为 ftp) 的 
内 存 中 。 在 图 8-13 中 ， 我 们 给 出 了 一 个 
二 叉 树 基于 数组 表示 的 例子 。 

二 叉 树 基于 数组 的 表示 方式 的 一 个 
优势 在 于 位 置 p 能 用 简单 的 整数 f(p) 来 表 
示 ， 且 基于 位 置 的 方法 (如 root、parent、 
left 和 right 方法 ) 能 采用 对 编号 f(p) 进 
行 简单 算术 操作 的 方法 来 执行 。 根 据 层 
编号 的 公式 ,p 左 孩 子 的 下 标 为 2Kp) + 1, 
右 孩 子 的 下 标 为 2f(p) + 2， 而 p 父母 的 
下 标 为 | f(p) - 1/2」。 我 们 将 完整 实现 方 
式 的 细节 留 作 练习 R-8.18。 

基于 数组 表示 的 空间 使 用 情况 极 大 地 依赖 于 树 的 形状 。 设 n 为 树 T 的 节点 数 ，f 为 f(p) 
对 于 了 所 有 节点 的 最 大 值 。 数 组 4 所 需 长 度 为 N= 1 + fx， 因为 元 素 范围 为 从 4[0] 到 ALi. 
注意 ，4 可 以 有 多 个 空 单元 ,未 指向 了 的 已 有 节点 。 事 实 上 ， 在 最 坏 情 况 下 ，N=2"” - 1， 证 
明 过 程 留 作 练习 R-8.16。 在 9.3 节 中 ， 我 们 将 学 习 二 叉 树 的 heaps 2$, HPN = n. 因此， 
即使 是 最 坏 情况 下 的 空间 使 用 ， 仍 有 应 用 程序 指明 二 又 树 的 数组 表示 是 空间 高 效 的 。 而 对 于 
一 般 的 二 叉 树 而 言 ， 这 种 表示 方式 的 指数 级 最 坏 空间 需求 是 不 允许 的 。 

数组 表示 的 另 一 个 缺点 是 不 能 有 效 地 支持 树 的 一 些 更 新 方法 ， 例 如 删除 节点 且 提 升 自 
己 的 孩子 节点 的 编号 需要 花费 O(n) 的 时 间 ， 因 为 在 数组 中 ， 不 仅 有 孩子 节点 需要 移动 位 置 ， 
该 孩子 节点 的 所 有 子孙 也 都 要 移动 。 
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图 8-13 二叉树 基于 数组 的 表示 方式 
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8.8.8 一般 树 的 链 式 存储 结构 


当 使 用 链 式 存储 结构 表示 二 又 树 时 ， 每 个 节点 都 明确 包含 了 left Al right 字段 ， 用 于 指 
向 各 自 的 孩子 节点 。 对 于 一 般 树 ， 一 个 节点 所 拥有 的 孩子 节点 之 间 没 有 优先 级 限制 。 使 用 链 
式 存储 结构 实现 一 般 树 7 的 一 个 很 自然 的 方法 是 : 使 每 个 节点 都 配置 一 个 容器 ， 该 容器 存储 
指向 每 个 孩子 的 引用 。 例 如 ， 节 点 的 children 字段 可 以 是 一 张 Python 列表 ， 用 于 存储 指 癌 
该 节点 孩子 GA) 的 引用 。 图 8-14 阐明 了 这 种 链 式 表示 。 











parent 
element cl 
children 





a) 节点 的 结构 b) 3| C3 /CD) es 
图 8-14 一 般 树 的 链 式 结构 


K 8-2 总 结 了 使 用 链 式 存储 结构 实现 一 般 树 的 性 能 。 分 析 过 程 留 作 练习 R-8.14， 但 需要 
注意 ， 使 用 集合 存储 每 个 位 置 p 的 孩子 时 ,我 们 可 以 使 用 简单 的 迭代 来 实现 children(p). 


表 8-2 使 用 链 式 存储 结构 实现 的 具有 n 个 节点 的 一 般 树 的 各 种 访问 方法 的 运行 时 间 。 
RAS cp 表示 位 置 p 的 孩子 节点 数 。 空 间 占用 为 O(n) 


R 作 运行 时 间 
len, is empty O(1) 
root, parent, is root, is leaf O(1) 
children(p) O(cp + 1 ) 
depth(p) O(d, +1) 
height O(n) 


8.4 树 的 遍历 算法 

树 T 的 遍历 是 访问 或 者 “拜访 ”7 的 所 有 位 置 的 一 种 系统 化 方法 。“ 访 问 ”p 位 置 的 相 
关 具 体 行动 取决 于 遍历 的 应 用 程序 ， 并 且 可 能 包括 任何 计数 器 为 p 执行 一 些 复杂 的 运算 。 在 
本 节 中 ， 我 们 描述 了 几 种 常见 的 树 的 遍历 方案 ， 并 在 各 种 树 类 的 环境 中 实现 它们 ， 还 讨论 了 
几 种 树 遍历 的 常见 应 用 。 


8.4.1 树 的 先 序 和 后 序 遍历 


在 树 了 的 先 序 遍 历 中 ， 首 先 访问 了 的 根 ， 然 后 递归 地 访问 子 树 的 根 。 如 果 这 棵 树 是 有 
序 的 ， 则 根据 孩子 的 顺序 遍历 子 树 。 对 于 疡 位 置 处 子 树 的 根 的 先 序 遍历 ， 其 伪 代 码 如 代码 段 
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8-12 所 示 。 


代码 段 8-12 T 树 p 位 置 的 子 树 根 的 先 序 遍 历 的 preorder 算法 
Algorithm preorder(T, p): 
perform the “visit” action for position p 
for each child c in T.children(p) do 
preorder(T, c) {recursively traverse the subtree rooted at c] 


图 8-15 描述 了 在 一 个 先 序 遍 历 算法 的 应 用 中 样本 树 的 位 置 被 顺序 访问 。 





图 8-15 ”顺序 树 的 先 序 遍 历 ， 每 个 位 置 处 的 孩子 节点 从 左 到 右 被 排序 


后 序 遍 历 

另 一 个 重要 的 树 的 遍历 算法 是 后 序 遍 历 。 在 某 种 程度 上 ， 这 种 算法 可 以 看 作 相反 的 先 
序 遍历 ， 因 为 它 优先 遍历 子 树 的 根 ， 即 首先 从 孩子 的 根 开 始 ， 然 后 访问 根 (因此 叫 作 后 序 )。 
后 序 遍历 的 伪 代 码 如 代码 段 8-13 所 示 ， 图 8-16 描绘 了 一 个 后 序 遍 历 的 例子 。 


代码 段 8-13 ”执行 树 T 根 在 p 位 置 处 的 后 序 遍 历 的 postorder 算法 
Algorithm postorder(T, p): 
for each child c in T.children(p) do 
postorder(T, c) {recursively traverse the subtree rooted at cj 
perform the “visit” action for position p 


Paper 
Cite) (Abstract) (S 1) GD s) 
P SS 
GLD G2D ($22) G23) 


图 8-16 图 8-15 所 示 的 顺序 树 的 后 序 遍 历 


运行 时 间 分 析 

先 序 遍历 和 后 序 遍 历 的 算法 对 于 访问 树 的 所 有 位 置 都 是 有 效 的 ， 对 这 两 种 算法 的 分 析 和 
hight2 算法 是 相似 的 ， 如 8.1.3 节 的 代码 段 8-5 所 示 。 在 每 个 p 位置 ,遍历 算法 中 的 非 递 归 
部 分 所 需 的 时 间 为 O(cy + 1), cp 是 指 p 位 置 处 孩子 的 个 数 ， 假 设 访问 本 身 需要 OC) 的 时 间 。 
由 命题 8-5 AT, BY 了 的 整体 运行 时 间 为 0(n)， 其 中 是 树 中 位 置 的 数量 。 这 个 运行 时 间 是 


最 佳 的 ， 因 为 遍历 必须 经 过 树 的 n 个 位 置 。 
8.4.2” 树 的 广度 优先 遍历 


在 访问 树 的 位 置 时 先 序 遍 历 和 后 序 遍 历 是 常见 的 方法 ， 男 一 种 常见 的 是 遍历 树 的 方法 是 
在 访问 深度 d 的 位 置 之 前 先 访问 深度 d+ 1 的 位 置 。 这 种 算法 称 为 广度 优先 遍历 。 

广度 优先 遍历 广泛 应 用 于 游戏 软件 上 ， 在 游戏 (或 计算 机 ) 中 ,博弈 树 代 表 了 可 选择 的 
一 些 动 作 ， 树 的 根 是 游戏 的 初始 配置 。 例 如 ， 图 8-17 所 示 即 为 井 字 棋 的 部 分 博弈 树 。 


JP FS eee | ee ee | RA 
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5 6 7 8 9 10 11 12 13 14 15 16 
图 8-17 “并 字 檬 的 部 分 博弈 树 ， 注 释 位 置 显示 的 访问 顺序 是 广度 优先 遍历 


之 所 以 常 执行 这 样 一 个 博弈 树 的 广度 优先 遍历 ， 是 因为 计算 机 无 法 在 有 限 的 时 间 内 去 挖掘 完 
整 的 博弈 树 。 所 以 计算 机 要 考虑 所 有 动作 ， 然 后 在 允许 的 计算 时 间 内 对 这 些 动作 进行 回馈 。 

广度 遍历 的 伪 代 码 如 代码 段 8-14 所 示 。 这 个 过 程 不 是 递归 的 ， 因 为 我 们 不 是 首先 遍历 
整个 子 树 。 我 们 使 用 一 个 队列 来 产生 FIFO ( 即 先 进 先 出 ) 访问 节点 的 顺序 语义 。 整 体 的 运行 
时 间 为 O(n)， 因 为 对 enqueue 和 dequeue HAVER VA Son XK. 


代码 段 8-14 ”执行 树 的 广度 优先 遍历 算法 
Algorithm breadthfirst(T): 

Initialize queue Q to contain T.root() 
while Q not empty do 

p — Q.dequeue() {p is the oldest entry in the queue} 

perform the “visit” action for position p 

for each child c in T.children(p) do 

Q.enqueue(c) {add p's children to the end of the queue for later visits} 


84.3 ”二叉树 的 中 序 遍 历 


前 面 介 绍 的 对 于 一 般 树 的 标准 先 序 、 后 序 和 广度 的 优先 遍历 能 直接 应 用 在 二 又 树 中 。 在 
这 节 中 ,我们 介绍 另 一 种 常见 的 专门 应 用 于 二 又 树 的 遍历 算法 。 

在 中 序 遍 历 中 ,我 们 通过 递归 遍历 左右 子 树 去 访问 一 个 位 置 。 二 又 树 的 中 序 遍 历 可 以 看 作 
“从 左 到 右 ” 非 正式 地 访问 7 的 节点 。 事 实 上 ， 对 于 每 个 位 置 p, p 将 在 其 左 子 树 之 后 及 其 右 子 树 之 
前 被 中 序 遍 历 访问 。 中 序 遍 历 算法 的 伪 码 如 代码 段 8-15 所 示 。 图 8-18 描述 了 中 序 遍 历 的 一 个 例子 。 


代码 段 8-15 RENH p 位 置 处 的 子 树 的 inorder 算法 的 执行 
Algorithm inorder(p): 
if p has a left child Ic then 
inorder(Ic) {recursively traverse the left subtree of p} 
perform the “visit” action for position p 
if p has a right child rc then 
inorder(rc) {recursively traverse the right subtree of p} 
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中 序 遍历 的 算法 有 几 个 重要 的 应 用 。 使 用 二 又 树 表示 一 个 算术 表达 式 ， 如 图 8-18 所 示 ， 
中 序 遍 历 访问 的 位 置 与 标准 的 顺序 表达 
式 的 顺序 一 致 ， 例 如 3 + 1x3/9 -5 二 
2… (尽管 没有 括号 )。 

二 叉 搜索 树 

中 序 遍 历 算法 的 一 个 重要 应 用 是 把 
有 序 序列 的 元 素 存 储 在 二 又 树 中 ， 所 定 
义 的 这 种 结构 称 为 二 又 搜索 树 。 设 $ 为 
一 个 集合 ， 其 独特 的 元 素 存在 次 序 关 系 。 
例如 ，5S 可 能 是 一 组 整数 。5 的 二 又 搜索 
树 是 7T7， 对 于 7 的 每 一 个 位 置 p， 有 : 

e 位 置 p 存储 5 的 一 个 元 素 ， 记 作 e(p)。 

e 存储 在 p 的 左 子 树 的 元 素 (如 果 有 的 话 ) 小 于 ep). 

e 存储 在 p 的 右 子 树 的 元 素 (如 果 有 的 话 ) KF e(p). 

图 8-19 所 示 为 二 又 搜索 树 的 例子 。 上 述 性 能 保证 二 又 搜索 树 了 的 中 序 遍 历 可 以 按照 非 
递减 次 序 访问 元 素 。 

我 们 可 以 为 8 使 用 二 又 搜索 树 了 ， 
来 寻找 S 中 的 元 素 v， 从 根 开 始 遍 历 树 
T 下 的 路 径 。 在 p 遇 到 的 每 个 内 部 位 置 ， 
我 们 比较 搜索 值 y 和 存储 在 p 位 置 的 
e(p)。 如 果 v < e(p)， 则 继续 搜索 p WA 
子 树 。 如 果 v = e(p)， 则 搜索 成 功 。 如 果 j 
v> elp), WIR p HATH. BUS. WM agio 存储 整数 的 二 又 搜索 树 。 当 搜索 (成 功 地 ) 36 
果 我 们 到 达 一 个 空 的 子 树 ， 则 搜索 失败 。 时 ， 实 线路 径 被 遍历 ; 当 搜索 (不 成 功 )70 时 ， 
换 句 话说 ， 二 又 搜索 树 可 以 看 作 一 棵 二 虚线 路 径 被 遍历 
又 决 策 树 (回忆 例题 8-6 )， 在 内 部 节点 
处 ， 要 考虑 元 素 是 小 于 、 等 于 还 是 大 于 被 搜索 的 元 素 。 在 图 8-19 中 说 明了 几 个 搜索 操作 的 
例子 。 

注意 ， 二 又 搜索 树 了 的 运行 时 间 是 和 了 的 高 度 成 正比 的 。 回 忆 命题 8-8, n 个 节点 二 叉 
树 的 高 度 可 以 小 到 log(n + 1) - 12k Xn — 1。 因 此 ， 当 二 又 树 高 度 最 小 时 是 最 有 效 的 。 
第 11 章 将 主要 介绍 搜索 树 。 


8.4.4 用 Python 实现 树 遍历 


在 8.1.2 节 中 ， 我 们 第 一 次 定义 树 ADT。 树 了 应 该 支持 下 列 方法 : 

e T.positions(): 树 了 的 所 有 位 置 生 成 一 个 迭代 器 。 

e iter(T): 生成 一 个 迭代 器 用 树 了 存储 所 有 元 素 。 

之 前 ， 我 们 不 对 这 些 和 迭代 器 报告 的 结果 的 顺序 做 任何 假设 。 在 本 节 中 ， 我 们 将 演示 如 何 
让 任意 一 种 之 前 介绍 的 树 遍历 算 法 都 能 用 于 产生 这 些 迭 代 。 

一 开始 ， 我 们 注意 到 树 的 所 有 元 素 很 容易 产生 一 个 迭代 器 ， 前 提 是 依赖 一 个 所 有 位 置 的 
Sou EUR. DRE, ZFF iter(T) 语法 可 以 正式 地 通过 带 有 抽象 基本 树 类 的 特殊 方法 的 iter 的 





图 8-18 二 又 树 的 中 序 遍 历 
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具体 实现 给 出 。 我 们 以 Python 的 生成 器 语法 作为 迭代 产生 的 机 制 ( 见 1.8 节 )。 代 码 段 8-16 
给 出 了 Tree. iter _ 的 实现 。 


代码 段 8-16 ”基于 迭代 树 的 位 置 的 所 有 元 素 树 的 实例 。 这 段 代 码 应 该 包含 在 Tree 类 的 结构 体内 


75 def __iter__(self): 


76 """ Generate an iteration of the tree's elements." "" 
77 for p in self.positions(): # use same order as positions() 
78 yield p.element( ) # but yield each element 


为 了 实现 positions 方法 ， 我 们 可 以 选择 树 遍历 算法 。 考 虑 到 这 些 遍历 顺序 的 优点 ,我 
们 将 提供 每 个 策略 的 独立 实现 ， 这 些 实现 可 以 被 类 的 使 用 者 直接 调用 。 我 们 可 以 选择 其 中 一 
个 作为 树 ADT 的 positions 方法 的 默认 顺序 。 

先 序 遍历 

首先 考虑 先 序 遍历 的 算法 。 我 们 通过 调用 树 了 的 T.preorderQ 来 给 出 一 个 公共 的 方法 ， 
该 方法 生成 一 个 关于 树 的 所 有 位 置 的 先 序 迭 代 器 。 然 而 ， 像 代码 段 8-12 中 描述 的 生成 先 序 
遍历 的 递归 算法 ， 必 须 由 树 的 特定 位 置 参数 化 作为 子 树 的 根 遍 历 。 对 于 这 种 情况 ， 一 种 标准 
的 解决 方案 是 用 所 需 的 递归 参数 化 来 定义 非 公 开 的 应 用 程序 方法 ， 然 后 由 公共 方法 preoder 
在 树 根 上 调用 非 公 开 方 法 。 这 样 设计 的 实现 在 代码 段 8-17 中 给 出 。 


代码 段 8-17 支持 执行 树 的 先 序 遍历 。 这 段 代码 应 该 包含 在 Tree 类 的 结构 体 中 


79 def preorder(self): 


80 """ Generate a preorder iteration of positions in the tree." " " 

81 if not self.is empty(): 

82 for p in self. subtree. preorder(self.root()): # start recursion 

83 yield p 

84 

85 def _subtree_preorder(self, p): 

86 """ Generate a preorder iteration of positions in subtree rooted at p." "" 
87 yield p # visit p before its subtrees 
88 for c in self.children(p): # for each child c 

89 for other in self. subtree. preorder(c): # do preorder of c's subtree 
90 yield other # yielding each to our caller 


从 形式 上 讲 ，preorder 和 应 用 subtree preorder 是 生成 器 。 我 们 把 位 置 给 调用 者 ， 然 后 
让 调用 者 决定 在 该 位 置 执行 什么 操作 ， 而 不 是 在 这 段 代 码 中 执行 “访问 ”行为 。 

_subtree_preorder 方法 是 递归 的 。 然 而 ， 递 归 形 式 略 有 不 同 ， 因 为 我 们 依赖 于 生成 器 而 
不 是 传统 的 函数 。 为 了 生成 孩子 c 的 子 树 的 所 有 位 置 ， 我们 在 通过 递归 调用 self. subtree - 
preorder(c) 产生 的 位 置 上 执行 循环 ， 并 在 外 环境 中 重新 生成 每 个 位 置 。 注 意 ， 如 果 疡 是 叶 
f, self.children(p) 上 的 for 循环 是 散乱 的 (这 是 递归 的 基本 情况 )。 

我 们 用 相似 的 技巧 从 树 的 根部 应 用 公共 的 preorder 方法 重新 生成 所 有 位 置 。 如 果树 是 空 
的 ， 什 么 都 不 产生 。 在 这 点 上 ， 我 们 为 preorder 迭代 器 提供 全 面 支持 ， 所 以 类 的 用 户 可 以 编 
写 代码 如 下 : 


for p in T.preorder( ): 
# "visit" position p 


官方 树 ADT 要 求 所 有 树 支 持 positions 方法 。 为 了 用 先 序 遍历 作为 默认 的 迭代 顺序 ， 我 


们 在 代码 段 8-18 中 给 出 了 Tree 类 的 定义 。 我 们 返回 整个 迭代 作为 对 象 ， 而 不 是 通过 先 序 调 
用 循环 返回 结果 。 
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代码 段 8-18 ”位 置 方法 依赖 于 先 序 遍历 产生 的 结果 
91 def positions(self): 
92 """ Generate an iteration of the tree's positions." " " 
93 return self.preorder( ) # return entire preorder iteration 


后 序 遍 历 
我 们 可 以 应 用 与 先 序 遍 历 相似 的 技巧 来 实现 后 序 遍历 。 唯 一 不 同 的 是 后 序 递归 应 用 , 直 
到 递归 地 产生 子 树 的 位 置 之 后 ， 才 生成 位 置 p。 代 码 段 8-19 给 出 了 一 个 实例 。 


代码 段 8-19 ”支持 执行 树 的 后 序 遍 历 。 这 段 代码 应 包含 在 Tree 类 的 结构 体内 


94 def postorder(self): 


95 """ Generate a postorder iteration of positions in the tree." "" 

96 if not self.is empty(): 

97 for p in self. subtree postorder(self.root( )): # start recursion 
98 yield p 

99 

100 def _subtree_postorder(self, p): 

101 """ Generate a postorder iteration of positions in subtree rooted at p." "" 
102 for c in self.children(p): # for each child c 

103 for other in self. subtree postorder(c): # do postorder of c's subtree 
104 yield other # yielding each to our caller 
105 yield p # visit p after its subtrees 
广度 优先 遍历 


在 代码 段 8-20 中 ， 我 们 给 出 了 一 个 在 Tree 类 的 上 下 文中 执行 广度 优先 遍历 的 实现 。 广 
度 优先 遍历 算法 不 是 递归 的 ， 它 借助 位 置 队 列 来 管理 递归 程序 。 尽 管 任 何 队列 ADT 的 实现 
BEZIET, EA 7.1.2 节 开 始 ， 我 们 用 LinkedQueue 类 来 实现 。 


代码 段 8-20” 树 的 广度 优先 遍历 的 实现 。 这 段 代码 应 包含 在 Tree 类 的 结构 体内 
106 def breadthfirst(self): 


107 """ Generate a breadth-first iteration of the positions of the tree." "" 

108 if not self.is empty(): 

109 fringe — LinkedQueue( ) # known positions not yet yielded 
110 fringe.enqueue(self.root( )) # starting with the root 

111 while not fringe.is empty( ): 

112 p — fringe.dequeue( ) # remove from front of the queue 
113 yield p # report this position 

114 for c in self.children(p): 

115 fringe.enqueue(c) # add children to back of queue 
中 序 遍历 二 叉 树 


先 序 、 后 序 和 广度 优先 遍历 算法 可 应 用 于 所 有 树 ， 所 以 我 们 在 Tree 的 抽象 基 类 中 包含 了 
它们 的 所 有 实现 。 这 些 方法 可 以 被 抽象 二 又 树 类 、 具 体 的 链 二 叉 树 类 和 其 他 派生 的 类 继承 。 

由 于 中 序 遍 历 算法 显 式 地 依赖 于 左 和 右 孩 子 节点 的 概念 ， 只 适用 于 二 又 树 ， 因 此 我 们 在 
BinaryTree 类 的 结构 体 中 包含 了 该 算法 的 定义 。 我 们 使 用 一 个 与 先 序 和 后 序 遍 历 相似 的 技巧 
实现 中 序 遍 历 ( 见 代码 段 8-21). 


代码 段 8-21 支持 执行 二 叉 树 的 中 序 遍历 ， 这 段 代 码 应 包含 在 BinaryTree 类 中 (代码 段 8-7 中 给 出 ) 


37 def inorder(self): 

38 """ Generate an inorder iteration of positions in the tree." " " 
39 if not self.is empty(): 

40 for p in self. subtree inorder(self.root( )): 
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41 yield p 

42 

43 def _subtree_inorder(self, p): 

44 """ Generate an inorder iteration of positions in subtree rooted at p.""" 
45 if self.left(p) is not None: # if left child exists, traverse its subtree 
46 for other in self._subtree_inorder(self.left(p)): 

47 yield other 

48 yield p # visit p between its subtrees 

49 if self.right(p) is not None: # if right child exists, traverse its subtree 
50 for other in self._subtree_inorder(self.right(p)): 

51 yield cther 


对 于 二 又 树 的 许多 应 用 ， 中 序 遍 历 提供 了 自然 的 迭代 。 我 们 可 以 通过 重 写 继承 自 Tree 
类 的 positions 方法 来 将 其 作为 BinaryTree 类 的 默认 值 ( 见 代码 段 8-22 )。 


代码 段 8-22 ”定义 二 又 树 的 位 置 方 法 以 实现 中 序 遍 历 节点 位 置 


52 # override inherited version to make inorder the default 

53 def positions(self): 

54 """ Generate an iteration of the tree's positions." " " 

55 return self.inorder( ) # make inorder the default 


8.4.5 树 遍历 的 应 用 


在 本 节 中 ， 我 们 将 演示 几 个 树 遍历 的 代表 应 用 程序 ， 其 中 包括 一 些 标准 遍历 算法 的 定制 。 

目录 表 

我 们 使 用 树 来 表示 文档 的 层次 结构 ， 树 的 先 序 遍历 可 以 自然 地 被 用 于 产生 一 个 文档 的 
目录 表 。 例 如 ， 图 8-15 中 与 树 相 关联 的 目录 表 如 图 8-20 所 示 。 图 8-20a 按 每 行 一 个 元 素 的 
样式 进行 了 简单 表示 。 图 8-20b 则 基于 树 的 深度 ， 通 过 缩 进 元 素 给 出 了 一 种 更 醒目 的 表示 形 
式 。 类 似 的 表示 可 用 于 展示 计算 机 文件 系统 目录 ( 见 图 8-3). 


Paper 
Title 
Abstract 


Paper 
Title 
Abstract 
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a) 没有 缩 进 b) 基于 树 的 深度 压缩 
图 8-20 图 8-15 中 用 树 表 示 的 文档 的 目录 表 


给 定 树 了 没有 缩 进 版 本 的 目录 表 ， 可 以 用 下 面 的 代码 : 


for p in T.preorder( ): 
print(p.element( )) 


为 了 生成 图 8-20b 的 表示 样式 ， 我 们 将 每 个 元 素 的 空间 缩 进 树 中 元 素 深 度 的 2 倍 ( 因 
此 根 元 素 是 不 被 缩 进 的 )。 尽 管 我 们 可 以 替换 语句 打印 的 循环 体 (2 *T.depth(p)#*' ' + str(p. 
element()))， 但 这 种 方法 会 造成 不 必要 的 效率 低下 。 基 于 8.4.1 节 的 分 析 ， 虽 然 产生 的 先 序 
遍历 运行 时 间 为 O(n)， 调 用 深度 会 产生 一 个 隐 含 的 成 本 。 从 树 的 每 一 个 位 置 调用 深度 都 会 
产生 最 坏 运行 时 间 O(n’), AN 8.1.3 节 中 hight] 算法 的 分 析 。 
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生成 一 个 缩 进 目录 表 的 首选 方法 是 重新 设置 一 个 自 顶 向 下 的 递归 ， 其 中 将 当前 的 深度 作 
为 额外 的 参数 。 代 码 段 8-23 给 出 了 这 个 实现 。 这 个 实现 最 坏 的 运行 时 间 为 On) (除去 技术 
上 将 花费 打印 增加 长 度 的 字符 串 的 时 间 )。 


代码 段 8-23 用 于 打印 先 序 遍历 的 缩 进 版 本 的 高 效 递 归 。 在 一 个 完整 的 树 7 上 ， 遍 历 应 该 从 
preorder indent(T, T.root(), 0) 开始 
def preorder indent(T, p, d): 


] 

2  """Print preorder representation of subtree of T rooted at p at depth d.""” 
3 print(2*d*' ' + str(p.element())) # use depth for indentation 
4  forcin T.children(p): 

5 preorder_indent(T, c, d+1) # child depth is d+1 


考虑 图 8-20 MARKAT, FARER SRA PAC. WKH, Bel EA 
趣 用 先 序 遍历 展示 树 的 结构 ， 缩 进 和 树 上 没有 显 式 呈 现 的 编号 。 例 如 ， 我 们 可 以 按照 以 下 样 
式 开 始 展示 图 8-2 所 示 的 树 。 


Electronics R?Us 
1 R&D 
2 Sales 
2.1 Domestic 
2.2 International 
2.2.1 Canada 
2.2.2 S. America 


这 更 具有 挑战 性 ， 因 为 数字 被 用 作 标 签 隐 含 在 树 的 结构 中 。 标 签 取决 于 位 置 的 索引 ， 相 
对 于 其 兄弟 姐妹 ， 沿 着 路 径 从 根 到 当前 位 置 。 为 了 实现 这 个 任务 ， 我 们 将 路 径 作 为 一 个 额外 
的 参数 添加 到 递归 签名 。 尤 其 是 ， 我 们 使 用 一 个 0 索引 数字 列表 ， 其 每 个 位 置 沿 着 向 下 的 路 
径 ， 而 不 是 根 (我 们 将 这 些 数据 转换 成 索引 形式 打印 )。 

在 实现 层级 ， 我 们 希望 在 将 一 个 新 参数 从 递归 的 一 个 层级 传递 到 下 一 个 层级 时 ， 避 免 这 
样 低 效率 的 列表 。 一 个 标准 的 解决 方案 是 通过 递归 共享 相同 的 列表 实例 。 在 递归 的 层级 上 ， 
一 个 新 的 条 目 在 做 进一步 递归 调用 之 前 被 暂时 添加 到 列表 的 末尾 。 为 了 “不 留 下 痕迹 ”， 相 
同 的 代码 块 在 完成 任务 之 前 必须 移 除 多 余 的 条 目 。 代 码 段 8-24 给 出 了 基于 这 种 方法 的 实现 。 


代码 段 8-24 ”用 于 打印 先 序 遍历 的 缩 进 和 标记 表示 


i def preorder label(T, p, d, path): 
2  """Print labeled representation of subtree of T rooted at p at depth d.""" 


label = '.' join(str(j+1) for j in path) # displayed labels are one-indexed 
4  print(2«d«' ' + label, p.element()) 
5 path.append(0) # path entries are zero-indexed 
6 for c in T.children(p): 
7 preorder_label(T, c, d+1, path) # child depth is d+1 
8 path[-1] += 1 


o oo 


)  path.pop() 


树 的 附加 说 明 表 示 

如 图 8-20a 所 示 ， 如 果 只 给 定 元 素 的 先 序 序列 ， 那 么 不 可 能 重建 一 般 的 树 。 要 更 好 地 定 
义 树 的 结构 ， 一 些 附 加 的 上 下 文 是 必需 的 。 用 缩 进 或 者 编 了 号 的 标签 提供 这 样 的 环境 是 非常 
人 性 化 的 表现 。 不 管 怎样 ， 有 些 更 简明 的 树 的 字符 串 是 对 计算 机 友好 的 。 

在 本 节 中 ， 我们 探索 这 样 一 个 表示 。 树 T 的 附加 说 明 的 字符 串 表 示 PCT) 以 如 下 方式 递 
HEX, WR 7 由 单一 的 位 置 bp 组 成 ， 则 
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P(T) — str(p.element()) 

否则 ， 它 将 递归 定义 为 

P(T) —str(p.element()) - C -P(T)) -', ‘+o t's '-Pn)T0' 

Ap pe THR, Ti, Ts …, T,JE p 的 孩子 的 子 树 根 。 如 果 T 是 有 序 树 ， 则 按 序 给 出 。 
我 们 用 “+” 来 表示 字符 串 连接 。 例 如 ， 图 8-2 所 示 的 树 的 附加 说 明 表示 如 下 (换行 符 是 
修饰 ): 

Electronics R?Us (R&D，Sales (Domestic, International (Canada, 


S. America, Overseas (Africa, Europe, Asia, Australia))), 
Purchasing, Manufacturing (TV, CD, Tuner)) 


虽然 附加 说 明 本 质 上 是 一 个 先 序 遍历 ， 但 是 我 们 不 能 用 之 前 代码 段 8-17 给 出 的 
preorder 实现 轻易 生成 额外 的 标点 符号 。 左 括号 必须 在 循环 该 位 置 的 孩子 之 前 产生 ， 石 括号 
必须 在 循环 该 位 置 的 孩子 之 后 产生 。 进 一 步 来 讲 ， 喜 号 必须 产生 。Python pki RX parenthesize 
是 一 个 自 定 义 的 遍历 ， 用 于 输出 树 工 的 附加 说 明 字 符 串 表示 ， 如 代码 段 8-25 所 示 。 


代码 段 8-25 ”输出 树 的 附加 说 明 字 符 串 表示 函数 


def parenthesize(T, p): 


l 

2 """ Print parenthesized representation of subtree of T rooted at p.”""” 

3 — print(p.element(), end='') # use of end avoids trailing newline 

4 if not T.is_leaf(p): 

5 first time — True 

6 for c in T.children(p): 

7 sep — ' (' if first time else ', ' # determine proper separator 
8 print(sep, end— ' ') 

9 first time — False # any future passes will not be the first 
10 parenthesize(T, c) # recur on child 

11 print(') ', end—' ') # include closing parenthesis 
计算 磁盘 空间 


在 例 8-1 中 ， 我 们 用 树 作为 文件 系统 结构 的 模型 ， 用 内 部 位 置 代 表 目 录 ， 用 叶子 代表 文 
件 。 事 实 上 ,在 第 4 章 中 介绍 递归 的 使 用 时 ， 我 们 专门 研究 过 文件 系统 ( 见 4.1.4 节 )。 虽 然 
当时 没有 明确 地 将 文件 系统 模型 化 为 一 棵 树 ， 但 我 们 给 出 了 计算 磁盘 使 用 率 的 一 个 算法 的 实 
IE ( 见 代 码 段 4-5 )。 

磁盘 空间 的 递归 计算 是 后 序 遍 历 的 一 个 象征 ， 正 如 我 们 不 能 有 效 地 计算 总 的 使 用 空间 直 
到 了 解 子 目 录 的 使 用 空间 之 后 。 不 幸 的 是 ， 代 码 段 8-19 给 出 的 postorder 的 正式 实施 并 不 满 
足 这 一 目的 。 访 问 一 个 目录 的 位 置 时 ， 没 有 简单 的 方法 来 辨别 之 前 的 哪个 位 置 代表 孩子 的 目 
录 ， 也 无 法 辨别 有 多 少 递归 磁盘 空间 被 分 配 。 

我 们 想 要 将 孩子 向 父亲 返回 信息 的 机 制作 为 遍历 过 程 的 一 部 分 。 每 层 递归 为 调用 者 提供 
一 个 返回 值 ， 来 自 定 义 解决 磁盘 空间 问题 ， 如 代码 段 8-26 所 示 。 


代码 段 8-26” 树 的 磁盘 空间 的 递归 计算 ， 假 设 每 个 树 元 素 的 space() 方法 给 出 在 这 个 位 
置 的 本 地 空间 使 用 情况 
def disk. space(T, p): 
""" Return total disk space for subtree of T rooted at p.""" 
subtotal = p.element( ).space( ) # space used at position p 


1 

2 

3 

4 for cin T.children(p): 

5 subtotal += disk space(T, c) # add child's space to subtotal 
6 return subtotal 
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8.4.6 ” 欧 拉 图 和 模板 方法 模式 * 


8.4.5 节 描 述 的 各 种 应 用 程序 展示 了 树 递归 所 历 的 强大 功能 。 不 幸 的 是 ， 它 们 也 表明 Tree 
类 的 preorder 和 postorder 方法 的 具体 实现 ， 或 者 BinaryTree 类 的 inorder 方法 的 实现 ,一 般 不 足 
以 采集 我 们 期 望 的 计算 范围 。 在 有 些 情况 下 ， 我 们 需要 更 多 的 混合 方法 ， 初 始 工作 执行 之 前 重 
复 执行 子 树 ， 额 外 的 工作 执行 在 递归 执行 之 后 ， 对 于 二 叉 树 ， 工 作 执行 两 种 可 能 的 递归 。 进 一 
步 来 讲 ， 在 某 些 情况 下 ， 知 道 位 置 的 深度 ,或 者 从 根 到 该 位 置 的 完整 的 路 符 ， 或 者 返回 从 递归 
的 一 个 层级 到 另 一 个 层级 的 信息 ， 这 些 是 很 重要 的 。 对 于 前 面 的 每 个 应 用 程序 ， 我 们 可 以 开发 

一 个 正确 适用 递归 思想 的 实现 ， 但 是 面向 对 象 编程 ( 见 2.1.1 节 ) 原则 包括 适应 性 和 可 重用 性 。 

在 本 节 中 ， 我 们 开发 了 一 个 更 通用 的 框架 ， 即 基于 概念 实现 树 的 遍历 一 一 欧 拉 遍 历 。 一 
般 树 了 的 欧 拉 遍历 可 以 非 正 式 地 定义 为 沿 着 
7“ 走 ”， 从 根 开 始 “ 走 ” 向 最 后 一 个 孩子 ， 我 
们 保持 在 左边 ， 像 “ 墙 ” 一 样 查看 T 的 边缘 ， 
如 图 8-21 所 示 。 

遍历 的 复杂 度 为 0(n)， 因 为 恰好 两 次 沿 着 
BIS n — 1 条 边 进行 一 一 一 次 沿 着 边缘 向 下 走 ， 
一 次 沿 着 边缘 向 上 走 。 为 了 统一 先 序 和 后 序 遍 
历 的 概念 ， 对 于 每 个 位 置 p， 我们 可 以 考虑 两 
个 值得 注意 的 “访问 ”: 

e 当 到 达 第 一 个 位 置 ， 即 当 遍 历 立刻 通过 可 视 化 节点 的 左边 时 ,“ 先 访问 ”出 现 。 

e 当 从 该 位 置 向 上 遍历 ， 即 当 遍 历 通过 可 视 化 节点 的 右边 时 ,“ 后 访问 ”发 生 。 

欧 拉 遍历 的 过 程 很 容易 被 看 成 递归 ， 在 给 定位 置 的 “ 先 访问 ”和 “后 访问 ”之 间 将 是 每 
个 子 树 的 递归 遍历 。 以 图 8-21 为 例 ， 整 个 遍历 的 连续 部 分 本 身 就 是 节点 带 元 素 “/” 的 子 树 
的 欧 拉 遍历 。 遍 历 包含 两 个 连续 的 子 遍历 ， 一 个 遍历 左 子 树 ， 一 个 遍历 右 子 树 。 对 于 根 在 p 
位 置 处 的 子 树 的 欧 拉 人 遍历， 其 伪 代 码 如 代码 段 8-27 所 示 。 


代码 段 8-27 REp 位 置 处 的 子 树 的 欧 拉 遍历 的 算法 实现 . 


Algorithm eulertour(T, p): 








图 8-21 BHO HRS 


perform the “pre visit" action for position p 
for each child c in T.children(p) do 

eulertour(T, c) {recursively tour the subtree rooted at c) 
perform the "post visit" action for position p 


模板 方法 模式 

为 了 提供 一 个 可 重用 的 和 适应 性 强 的 框架 ， 我 们 借用 了 一 种 有 趣 的 面向 对 象 软件 设计 模 
式 一 一 模板 方法 模式 。 模 板 方法 模式 通过 精简 某 些 步骤 描述 了 一 个 通用 的 计算 机 制 。 在 指定 
步骤 的 过 程 中 ， 为 了 人 允许 自 定 义 ， 基 本 算法 调用 称 为 钧 子 (hook) 的 辅助 函数 。 

在 欧 拉 遍历 的 上 下 文中 ,我 们 定义 了 两 个 单独 的 钩子 。 在 子 树 被 访问 之 前 ,“ 先 序 访问 ” 
钩子 被 调用 ; 在 子 树 完成 遍历 之 后 ,“ 后 续 访 问 ” 钩 子 被 调用 。 我 们 的 实现 将 采用 EulerTour 
类 管理 进程 ， 并 简单 定义 什么 也 不 做 的 钩子 。 遍 历 可 以 通过 定义 EulerTour 的 子 类 和 重 载 一 
个 或 两 个 用 以 提供 特殊 性 能 的 钩子 来 进行 个 性 化 设置 。 

Python 实现 

代码 段 8-28 提供 了 EulerTour 类 的 实现 ， 主 要 的 递归 过 程 被 定义 为 非 公 开 的 tour 方法 。 
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通过 发 送 引 用 一 个 特定 的 树 的 构造 函数 创建 遍历 实例 ， 然 后 通过 调用 公共 执行 方法 去 遍历 返 
回 一 个 计算 的 最 终结 果 。 
代码 段 8-28 EulerTour 基 类 提供 了 一 个 框架 ， 用 于 执行 树 的 欧 拉 遍历 


class EulerTour: 


1 

2  """Abstract base class for performing Euler tour of a tree. 

3 

4 -hook.previsit and hook. postvisit may be overridden by subclasses. 
6 def init. (self, tree): 

7 """ Prepare an Euler tour template for given tree.””” 

8 self. tree — tree 


10 def tree(self): 
11 """ Return reference to the tree being traversed." " " 
12 return self. tree 


14 def execute(self): 


15 """ Perform the tour and return any result from post visit of root." "" 

16 if len(self. tree) > 0: 

17 return self._tour(self._tree.root(), 0, [ ]) # start the recursion 
18 

19 def tour(self, p, d, path): 

20 """ Perform tour of subtree rooted at Position p. 

21 

22 p Position of current node being visited 

23 d depth of p in the tree 

24 path list of indices of children on path from root to p 

25 Wen 

26 self. hook previsit(p, d, path) # "pre visit" p 
27 results — [] 

28 path.append(0) # add new index to end of path before recursion 
29 for c in self._tree.children(p): 

30 results.append(self. tour(c, d+1, path)) # recur on child's subtree 
31 path[—1] += 1 # increment index 

32 path.pop( ) # remove extraneous index from end of path 

33 answer = self. hook. postvisit(p, d, path, results) # " post visit" p 
34 return answer 

35 

36 def hook previsit(self, p, d, path): & can be overridden 
37 pass 

38 

39 def hook. postvisit(self, p, d, path, results): # can be overridden 
40 pass 


8.4.5 节 的 简单 应 用 基于 定制 遍历 的 经 验 ， 我们 在 代码 段 8-24 中 介绍 了 支持 主要 的 
EulerTour 遍历 以 维护 递归 遍历 的 深度 和 路 径 。 我 们 还 为 递归 层级 提供 了 一 个 机 制 ， 用 于 在 
进行 后 续 处 理 时 返回 值 。 在 形式 上 ， 框 架 依赖 于 专业 化 的 两 个 钩子 : 

e method hook previsit(p, d, path) 

每 个 位 置 调用 这 个 函数 一 次 一 一 在 子 树 遍历 之 前 立即 调用 (如果 有 的 话 )。 参 数 
位 置 p 是 树 上 的 位 置 ，d 是 位 置 的 深度 ，path 是 索引 的 列表 ， 使 用 代码 段 8-24 中 所 
描述 的 约定 。 这 个 函数 没有 返回 值 。 

e method hook postvisit(p, d, path, results) 

这 个 函数 在 每 个 位 置 被 调用 一 次 一 一 在 其 子 树 被 遍历 后 立即 调用 ， 前 三 个 参数 使 
用 与 _hook_previsit 相同 的 约定 。 最 后 一 个 参数 是 以 p 的 子 树 后 序 遍 历 的 返回 值 作为 
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列表 对 象 。 任 何 通过 此 调用 的 返回 值 可 以 被 其 父母 节点 p 所 利用 。 
对 于 更 复杂 的 任务 ，EulerTour 的 子 类 能 够 以 实例 变量 可 以 在 带 有 钩子 的 本 体 类 中 被 访 
问 的 形式 选择 初始 化 和 维护 额外 的 状态 。 
使 用 欧 拉 遍历 框架 
为 了 展示 欧 拉 遍历 的 灵活 性 ， 我 们 重新 审视 8.4.5 节 中 的 示例 应 用 程序 。 举 一 个 简单 的 例 
T. 一 个 缩 进 的 先 序 遍 历 (类似 于 代码 段 8-23 )， 可 以 由 代码 段 8-29 中 给 出 的 简单 子 类 生成 。 


代码 段 8-29 EulerTour 的 子 类 生成 树 元 素 的 缩 进 先 序列 表 


| class PreorderPrintlndentedTour(EulerTour): 
2 def hook. previsit(self, p, d, path): 
3 print(2«d«' ' 十 str(p.element())) 


对 于 给 定 的 树 7， 通 过 创建 子 类 的 实例 来 开始 遍历 并 调用 execute 方法 。 代 码 如 下 : 


tour — PreorderPrintlndentedTour(T) 
tour.execute( ) 


缩 进 标记 版 本 类 似 于 代码 段 8-24， 可 能 通过 EulerTour 的 新 子 类 生成 ， 如 代码 段 8-30 所 示 。 


代码 段 8-30 EulerTour 的 子 类 生成 树 元 素 的 标记 和 缩 进 先 序列 表 


| class PreorderPrintIndentedLabeledTour(EulerTour): 

2 def hook. previsit(self, p, d, path): 

3 label = '.' join(str(j+1) for j in path) # labels are one-indexed 
4 print(2*d*' ' + label, p.element()) 


为 了 生成 附加 说 明 的 字符 串 表 示 ， 最 初 实现 如 代码 段 8-25 所 示 ， 我 们 通过 重 写 先 序 遍 
历 和 后 序 遍 历 的 钩子 定义 了 一 个 子 类 。 新 的 实现 如 代码 段 8-31 所 示 。 


代码 段 8-31 EulerTour 的 子 类 ， 用 于 打印 树 的 附加 说 明 字 符 串 的 表示 


class ParenthesizeTour(EulerTour): 


| 

2 def _hook_previsit(self, p, d, path): 

3 if path and path[—1] > 0: # p follows a sibling 

4 print(', ', end='') # so preface with comma 
5 print(p.element(), end='') # then print element 

6 if not self.tree( ).is leaf(p): # if p has children 

7 print(* (', end='') # print opening parenthesis 
8 

9 def .hook.postvisit(self, p, d, path, results): 

10 if not self.tree( ).is leaf(p): # if p has children 

11 print(')', end='") # print closing parenthesis 


注意 ， 在 这 个 实现 中 ,我们 在 树 的 实例 中 调用 一 个 从 内 部 钧 子 遍历 的 方法 。 欧 拉 遍 历 类 
的 公共 tree) 方法 作为 树 的 访问 器 。 

最 后 ， 计 算 磁盘 空间 的 任务 (如 代码 段 8-26 所 示 ) 可 以 用 代码 段 8-32 所 示 的 EulerTour 
子 类 很 容易 地 实现 。 根 的 后 序 遍 历 通过 调用 execute) 返回 结果 。 


代码 段 8-32 ” 欧 拉 人 遍历 子 类 计算 树 的 磁盘 空间 


1 class DiskSpaceTour(EulerTour): 

2 def hook postvisit(self, p, d, path, results): 

3 # we simply add space associated with p to that of its subtrees 
4 return p.element().space( ) + sum(results) 
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二 叉 树 的 欧 拉 遍 历 


在 8.4.6 节 中 ,我 们 介绍 了 一 般 图 的 欧 拉 遍历 的 概念 ， 使 用 模板 方法 模式 设计 EulerTour 
类 。 类 提供 的 _hook previsit 和 _hook postvisit 方法 可 以 被 重 载 来 定制 遍历 。 代 码 段 8-33 
给 出 了 一 个 BinaryEulerTour 特性 ， 包 括 额 外 的 _hook invisit 方法 一 一 被 每 个 位 置 调用 一 次 ， 


在 遍历 左 子 树 之 后 、 右 子 树 之 前 调用 。 


BinaryEulerTour 的 实现 代替 了 原来 的 _tour， 仅 限于 一 个 节点 至 多 有 两 个 孩子 的 情况 。 
如 果 一 个 节点 只 有 一 个 孩子 ， 遍历 将 区 分 是 左 孩子 还 是 右 孩 子 。 访 问 发 生 在 一 个 左 孩子 访问 
之 后 ， 且 在 一 个 右 孩 子 访问 之 前 。 在 一 片 叶 子 的 情况 下 ， 会 连续 调用 三 个 钩子 。 


代码 段 8-33 BinaryEulerTour 基 类 为 二 叉 树 提供 专门 的 遍历 。 最 初 的 EulerTour 


基 类 在 代码 段 8-28 中 给 出 


class BinaryEulerTour(EulerTour): 
""" Abstract base class for performing Euler tour of a binary tree. 


l 

2 

3 

4 This version includes an additional hook invisit that is called after the tour 
5 ofthe left subtree (if any), yet before the tour of the right subtree (if any). 
6 

7 

8 


Note: Right child is always assigned index 1 in path, even if no left sibling. 


9 def tour(self, p, d, path): 


10 results = [None, None] # will update with results of recursions 
11 self. hook. previsit(p, d, path) # "pre visit" for p 

12 if self. tree.left(p) is not None: # consider left child 
13 path.append(0) 

14 results(0] = self. tour(self. tree.left(p), d+1, path) 

15 path.pop( ) 

16 self. hook. invisit(p, d, path) # "in visit" for p 

17 if self. tree.right(p) is not None: # consider right child 
18 path.append(1) 

19 results[1] = self. tour(self. tree.right(p), d+1, path) 

20 path.pop( ) 

21 answer = self. hook. postvisit(p, d, path, results) # "post visit" p 
22 return answer 

23 

24 def hook. invisit(self, p, d, path): pass # can be overridden 


为 了 演示 BinaryEulerTour 的 框架 ， 我 们 开发 了 一 个 用 于 计算 二 


又 树 的 图 形 布局 的 子 类 ， 


如 图 8-22 所 示 。 几 何 图 形 由 一 个 算法 确定 ,该 算法 用 以 下 两 条 规则 为 二 叉 树 7 的 每 个 位 置 


Pp 指定 x 坐标 和 yy 坐标。 
e x(p) 是 在 p 之 前 7 的 中 遍历 中 访问 的 位 置 数量 。 
e y(p) Æ TF p 的 深度 。 
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图 8-22 二叉树 的 有 序 图 
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在 这 个 应 用 中 ， 我 们 采用 计算 机 图 形 学 中 的 一 个 公认 约定 ， 即 x 坐标 从 左 到 右 增加 ，y 
坐标 从 上 到 下 增加 ， 所 以 原点 在 计算 机 屏幕 的 左上 和 角 。 

代码 段 8-34 给 出 了 一 个 BinaryLayout 子 类 的 实现 ， 用 于 前 面 的 算法 ， 即 实现 为 存储 
在 二 叉 树 每 个 位 置 的 元 素 分 配 (x, y) 坐标 。 我 们 以 _count 实例 变量 (表示 我 们 已 执行 “ in 
visits ”的 数量 ) 的 形式 引入 额外 的 状态 ， 从 而 调整 BinaryEulerTour 框架 。 每 个 位 置 的 x 坐 
标 根据 计数 器 设置 。 


代码 段 8-34 用 于 计算 坐标 绘 出 二 叉 树 图 形 布 局 的 BinaryLayout 类 ， 假 设 原来 树 的 元 
素 类 型 支持 setX 和 setY 方法 


class BinaryLayout(BinaryEulerTour): 


l 

2 '" Class for computing (x,y) coordinates for each node of a binary tree." "" 
3 def init... (self, tree): 

B super( ). .. init... (tree) # must call the parent constructor 

5 self. count — 0 # initialize count of processed nodes 
6 

7 def _hook_invisit(self, p, d, path): 

8 p.element( ).setX (self. .count) # x-coordinate serialized by count 

9 p.element( ).setY (d) # y-coordinate is depth 
10 self. count += 1 # advance count of processed nodes 


8.5 案例 研究 : 表达 式 树 


在 例 8-7 中 ， 我 们 介绍 了 使 用 二 又 树 来 表示 算数 表达 式 的 结构 。 在 本 节 中 ， 我 们 定义 一 
个 新 类 ExpressionTree 为 构建 树 提 供 支 持 ， 显 示 和 评估 树 呈 现 的 算术 表达 式 。ExpressionTree 
类 被 定义 为 LinkedBinaryTree 类 的 子 类 。 我 们 用 非 公 开 调整 器 来 构建 这 样 的 树 。 每 个 内 部 节 
点 必须 存储 一 个 用 于 定义 二 进 制 操作 Cli +) 的 字符 串 ， 每 片 叶 子 必须 存储 一 个 数值 (或 者 
一 个 字符 串 代表 一 个 数值 ) 。 

最 终 目 的 是 将 任意 复杂 度 的 表达 式 树 建立 为 复合 运算 表达 式 ， 如 (((3 + 1) x 4)/((9 - 5) + 
2))。 然 而 ， 它 仅 支 持 两 种 基本 形式 来 初始 化 表达 式 树 类 。 

e ExpressionTree(value): 创建 一 棵 在 根 处 存储 给 定 值 的 树 。 

e ExpressionTree(op, Ei, £2): 创建 一 棵 在 根 处 存储 字符 串 op (al +) 的 树 ，Expression- 

Tree 的 实例 E, 和 E, 分 别 作为 根 的 左 子 树 和 右 子 树 。 

ExpressionTree 的 构造 函数 在 代码 段 8-35 中 给 出 ， 该 类 正式 继承 自 LinkedBinaryTree， 
所 以 它 访问 8.3.1 节 中 定义 的 非 公 开 更 新 方法 。 我 们 使 用 add root 方法 来 创建 树 的 初始 
根 ， 用 以 将 令 牌 作为 第 一 个 参数 存储 ， 然 后 执行 运行 时 参数 来 检查 调用 者 是 调用 构造 函数 
的 单个 参数 版 本 (在 这 种 情况 下 ， 我 们 已 经 做 完了 ) 还 是 3 个 参数 形式 。 在 这 种 情况 下 ， 
我 们 结合 树 的 结构 使 用 继承 的 _attach 方法 作为 根 的 子 树 。 

组 成 一 个 括号 字符 串 表示 

现 有 表达 式 树 实例 的 字符 串 表 示 ， 例 如 (((3 + 1)x4)/((9 - 5) + 2))， 可 以 通过 中 序 遍 历 
树 的 方法 来 产生 ， 但 左 括 号 和 右 括号 分 别 用 先 序 和 后 序 步骤 插入 。ExpressionTree 类 的 上 下 
文中 ,我 们 支持 一 个 特殊 的 ”str _ 方法 ( 见 2.3.2 节 ) 返回 一 个 合适 的 字符 串 。 因 为 它 是 更 
高 效 地 先 将 一 系列 独立 的 字符 串 连接 在 一 起 ( 见 5.4.2 节 中 “组 合 字符 串 ” 的 讨论 )，str 的 实 
现 依赖 于 一 个 非 公 开 、 递 归 的 方法 _parenthesize_recur， 该 方法 用 于 在 一 个 列表 中 添加 一 系 
列 字符 串 。 这 些 方法 被 包含 在 代码 段 8-35 中 。 
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代码 段 8-35 ExpressionTree 类 的 开始 部 分 


class ExpressionTree(LinkedBinary Tree): 


l 
2  """An arithmetic expression tree." "" 
3 
4 def init. (self, token, left=None, right=None): 
5 """ Create an expression tree. 
6 
7 In a single parameter form, token should be a leaf value (e.g., '42'), 
8 and the expression tree will have that value at an isolated node. 
9 
10 In a three-parameter version, token should be an operator, 
11 and left and right should be existing Expression Tree instances 
12 that become the operands for the binary operator. 
13 iH» 
14 super().__init__( ) # LinkedBinaryTree initialization 
I5 if not isinstance(token, str): 
16 raise TypeError('Token must be a string’) 
17 self. add root(token) # use inherited, nonpublic method 
18 if left is not None: # presumably three-parameter form 
19 if token not in '«-*x/': 
20 raise ValueError('token must be valid operator!) 
21 self. attach(self.root(), left, right) # use inherited, nonpublic method 


23 def __str__(self): 


24 """ Return string representation of the expression." " " 

25 pieces = [] # sequence of piecewise strings to compose 
26 self. parenthesize. recur(self.root(), pieces) 

27 return ' ' join(pieces) 

28 

29 def | parenthesize recur(self, p, result): 

30 """ Append piecewise representation of p's subtree to resulting list." " " 

31 if self.is leaf(p): 

32 result.append(str(p.element( ))) # leaf value as a string 
33 else: 

34 result.append( ' (') # opening parenthesis 
35 self._parenthesize_recur(self.left(p), result) # left subtree 

36 result.append(p.element( )) # operator 

37 self._parenthesize_recur(self.right(p), result) # right subtree 

38 result.append(') ') # closing parenthesis 


表达 式 树 的 评估 
表达 式 树 的 数值 评估 可 以 用 先 序 遍历 的 简单 应 用 完成 。 如 果 知 道 两 个 子 树 内 部 节点 的 位 置 ， 
我 们 可 以 计算 指定 位 置 的 计算 结果 。 代 码 段 8-36 给 出 了 根 在 p 位 置 处 子 树 的 评估 值 的 递归 伪 代 码 。 


代码 段 8-36 ME p 位 置 处 的 子 树 的 评估 算法 evaluate_recur 


Algorithm evaluate_recur(p): 

if pis a leaf then 
return the value stored at p 

else 
let o be the operator stored at p 
x — evaluate. recur(left(p)) 
y — evaluate. recur(right(p)) 
return x o y 


为 了 用 Python 的 ExpressionTree 类 实现 这 个 算法 ， 我 们 提供 了 一 个 公共 的 evaluate 77 
法 ， 它 用 T.evaluate() 调用 实例 T。 代 码 段 8-37 给 出 了 这 样 一 个 实现 一 一 用 一 个 非 公开 评估 
方法 evaluate recur 计算 指定 子 树 的 值 。 
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代码 段 8-37 ”评估 ExpressTree 的 实例 


39 def evaluate(self): 


40 """ Return the numeric result of the expression." "” 

41 return self. evaluate recur(self.root( )) 

42 

43 def .evaluate. recur(self, p): 

44 """ Return the numeric result of subtree rooted at p." "" 

45 if self.is leaf(p): 

46 return float(p.element( )) # we assume element is numeric 
47 else: 

48 op = p.element( ) 

49 left val = self. evaluate recur(self.left(p)) 

50 right. val = self. evaluate. recur(self.right(p)) 

51 if op == '*': return left val + right vai 

52 elif op —— '-': return left val — right val 

53 elif op == '/': return left val / right val 

54 else: return left_val * right_val # treat 'x' or '*' as multiplication 


创建 一 棵 表达 式 树 

代码 段 8-35 中 ExpressionTree 的 构造 函数 ， 提 供 了 结合 现 有 树 构 建 更 大 表达 式 树 的 基 
本 功能 。 然 而 ， 对 于 给 定 的 字符 串 ， 如 (((3 + 1) x 4)/((9 - 5) + 2))， 如 何 构 建 一 棵 表示 该 表 
达 式 的 树 ， 这 一 问题 尚未 解决 。 

为 了 将 这 个 过 程 自动 化 ， 我 们 使 用 一 个 自 上 而 下 的 构造 算法 ,假设 一 个 字符 串 可 以 先 被 
标记 化 ， 这 样 多 位 数字 就 可 以 自动 处 理 ( 见 练习 R-8.30 )， 从 而 这 个 表达 式 就 完全 被 括 起 来 
了 。 算 法 使 用 栈 5 扫描 输入 表达 式 E 来 查找 值 、 操 作 符 和 右 括号 ( 左 括号 被 忽略 )。 

e 当 看 到 一 个 操作 。 时 ， 我 们 将 字符 串 推 人 栈 。 

e 当 看 到 一 个 文本 值 vy 时， 我 们 创建 一 个 单个 节点 表达 式 树 了 存储 v， 并 将 了 推 人 栈 中 。 

e 当 看 到 一 个 右 括号 “)” 时 ,我 们 从 栈 S 的 最 顶端 抛 出 三 个 元 素 ， 它 代表 子 表 达 式 

(E1cE,)。 我 们 构造 树 T7， 使 用 根 的 子 树 存储 ET E, FEZ 了 放 回 栈 中 。 

我 们 重复 这 个 过 程 直到 表达 式 E 被 处 理 完 ， 每 一 次 栈 顶 元 素 都 是 表达 式 树 E。 总 共 的 运 
行 时 间 为 O(n)。 

算法 的 实现 在 代码 段 8-38 中 以 独立 函数 build expression tree 的 形式 给 出 ， 该 函数 返回 
一 个 适当 的 ExpressionTree 实例 ， 假 设 输入 已 经 被 标记 化 。 


代码 段 8-38 build expression tree 的 实现 ， 该 函数 用 表示 一 个 算术 表达 式 的 一 系列 
标记 生成 ExpressionTree 


def build_expression_tree(tokens): 


l 

2  """Returns an ExpressionTree based upon by a tokenized expression." "" 

3 SI] # we use Python list as stack 
4 for t in tokens: 

5 if t in '+-x*/': # t is an operator symbol 

6 S.append(t) # push the operator symbol 

7 elif t not in ' O ': # consider t to be a literal 

8 S.append(ExpressionTree(t)) 3 push trivial tree storing value 
9 elift --— 1): # compose a new tree from three constituent parts 
10 right — S.pop( ) # right subtree as per LIFO 
11 op — S.pop( ) 3 operator symbol 
12 left — S.pop( ) # left subtree 
13 S.append(ExpressionTree(op, left, right)) # repush tree 
14 # we ignore a left parenthesis 


I5 return S.pop() 
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8.6 练习 

请 访问 www.wiley.com/college/goodrich 以 获得 练习 帮助 。 

巩固 

R-8.1 下 列 问题 基于 图 8-3 中 的 树 。 

a) 哪个 节点 是 根 节点 ? 

b) 哪些 是 内 部 节点 ? 

c) 节点 cs016 有 多 少子 孙 节 点 ? 

d) cs016 有 多 少 祖先 节 点 ? 

e) homeworks 有 哪些 兄弟 节点 ? 

f) 哪些 节点 在 以 projects 为 根 节 点 的 子 树 中 ? 
g) papers 节点 的 深度 是 多 少 ? 

h) 树 的 高 度 是 多 少 ? 

R-8.2 Xt FRAY depth 算法 ， 给 出 一 棵 树 ， 实 现 最 坏 情 况 运 行 时 。 

R-8.3 给 出 命题 8-4 的 证 明 。 

R-8.4 ” 当 在 一 棵 树 的 位 置 p 处 而 不 是 根 节点 处 调用 Theight2(p) 方法 时 的 运行 时 间 是 多 少 ?( 详 见 代码 段 8-5 ) 

R-8.5 给 出 一 个 仅 依靠 二 又 树 操 作 的 算法 ， 该 算法 能 够 统计 二 叉 树 中 作为 左 孩子 的 叶子 节点 的 个 数 。 

R-8.6 假设 T 是 一 棵 有 nn 个 节点 的 二 叉 树 ,该 二 又 树 可 能 不 规则 。 请 说 明 如 何 通 过 一 棵 有 O(n) 节点 

数 的 完全 二 又 树 T' 来 表示 T. 
R-8.7 在 一 个 拥有 nn 个 节点 的 不 完全 二 叉 树 中 ， 内 部 节点 和 外 部 节点 的 最 多 和 最 少 的 个 数 分 别 是 多 少 ? 
R-8.8 回答 如 下 的 问题 以 给 出 命题 8-8 的 证 明 : 

a) 对 于 一 棵 高 度 为 疡 的 完全 二 叉 树 ， 外 部 节点 的 最 少 个 数 是 多 少 。 证 明 你 的 答案 。 

b) 对 于 一 棵 高 度 为 h 的 完全 二 叉 树 ， 外 部 节点 的 最 多 个 数 是 多 少 。 证 明 你 的 答案 。 

c) 假设 T 是 一 棵 及 n 个 节点 并 且 高 度 为 h 的 完全 二 又 树 ， 请 证 明 : 

log(n - 1)-1 € h < (n- 1y2 

d) ?4 n 和 及 取 什 么 值 时 ， 上 边 的 不 等 式 两 边 取 等 号 ? 

R-8.9 ”请 给 出 命题 8-9 的 证 明 。 

R-8.10 ”在 BinaryTree 类 中 给 出 num children 方法 的 实现 过 程 。 

R-8.11 找 出 与 图 8-8 所 示 二 又 树 中 每 个 子 树 相 关 的 值 的 算术 表达 式 。 

R-8.12 画 出 一 棵 算术 表达 式 的 树 ， 其 含有 4 个 外 部 节点 ， 分 别 存储 数字 1、5、6 和 7 (每 个 外 部 节点 存 
储 一 个 数字 ， 但 不 一 定 按照 这 样 的 顺序 ) 并 且 有 4 个 内 部 节点 ， 分 别 存储 来 自 操作 集 {+, 一 , *, /} 
中 的 字符 ， 使 得 通过 计算 得 到 根 节点 的 值 为 21。 这 些 操作 符 可 能 在 局 部 被 使 用 ， 并 且 一 个 操 
作 符 可 能 被 使 用 不 止 一 次 。 

R-8.13 画 出 如 下 算术 表达 式 的 二 又 树 : 

(((5 + 2)*(2 — 1))/((2 + 9) + (7 — 2) - 1*8) 

R-8.14 根据 表 8-2， 通 过 给 出 每 一 个 方法 实现 的 描述 和 执行 时 间 的 分 析 ， 总 结 用 链 式 结构 来 表达 树 的 
运行 时 间 。 

R-8.15 8.3.1 节 中 的 类 LinkedBinaryTree 仅 提 供 了 一 个 非 公共 的 更 新 操作 方法 。 请 实现 一 个 能 够 为 每 
个 继承 非 公 共 的 更 新 操作 方法 提供 公共 函数 的 MutableLinkedBinaryTree 子 类 。 

R-8.16 假设 T 是 一 棵 有 个 节点 的 二 又 树 ， 3f EL fO 是 树 某 个 位 置 同一 水 平 中 节点 个 数 计数 的 函数 
(参见 8.3.2 节 )。 
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a) 试 证 明 对 于 树 7 中 任何 一 个 位 置 p, f(p) < 2" - 2. 

b) 在 一 棵 拥有 7 个 节点 的 树 中 ， 试 着 给 出 在 哪些 位 置 下 上 面 的 不 等 式 两 边 能 够 取 等 号 。 

试 说 明 如 何 通 过 使 用 欧 拉 遍 历来 计算 处 于 树 7 中 每 个 位 置 p 的 f(p)。 

假设 了 是 一 棵 通过 数组 4 表示 的 拥有 个 节点 的 二 叉 树 ，f() 是 计算 树 了 中 某 个 位 置 同一 级 节 
点 的 个 数 的 函数 。 试 给 出 root, parent, left, right, is leaf 和 is root FEMME. 

我 们 在 8.3.2 节 给 出 的 计算 同一 级 节点 个 数 的 函数 f(p) 在 根 节点 的 位 置 时 的 结果 是 0。 一 些 作 
者 更 喜欢 使 用 函数 g(p)， 当 p 是 根 节点 时 ， 其 结果 为 1， 因为 其 简化 了 寻找 相 邻 位 置 的 方法 。 
请 使 用 函数 g(p) 重 做 练习 R-8.18。 

画 一 棵 二 又 树 7， 使 其 同时 满足 如 下 条 件 : 

e 树 了 7 的 每 个 内 部 节点 存储 一 个 字符 。 

© 对 树 了 先 序 遍历 产生 EXAMFUN。 

e. 对 树 了 中 序 遍 历 产生 MAFXUEN。 

对 图 8-8 中 的 树 进行 先 序 遍历 时 ， 访 问 树 中 节点 的 顺序 是 怎样 的 ? 

对 图 8-8 中 的 树 进 行 后 序 遍 历时 ， 访 问 树 中 节点 的 顺序 是 怎样 的 ? 

假设 T 是 一 棵 有 不 止 一 个 节点 的 有 序 树 ， 试 问 是 否 可 能 对 其 中 序 遍 历 和 后 续 遍 历 都 以 相同 的 
顺序 访问 其 中 的 节点 ?如 果 你 认为 可 能 ， 请 给 出 一 个 例子 ; 反之 ,请 解释 为 什么 不 可 能 。 类 
似 地 ， 是 否 存在 可 能 使 得 对 树 进行 中 序 遍 历 和 后 序 遍历 时 以 相反 的 顺序 访问 树 中 的 节点 ?如 
果 你 认为 可 能 ,给 出 具体 的 例子 ; 反之 ,请 解释 为 什么 不 会 发 生 。 

当 7 了 是 一 棵 有 不 止 一 个 节点 的 完全 二 叉 树 时 ， 试 回答 R-8.23 中 的 问题 。 

考虑 图 8-17 中 给 出 的 对 树 进行 广度 优先 遍历 的 例子 ， 用 图 中 标注 的 数字 ， 描 述 在 每 一 次 执行 
代码 段 8-14 中 的 循环 之 前 队列 当中 的 内 容 。 一 开始 ， 在 第 一 次 执行 循环 之 前 队列 当中 的 内 容 
为 0), 第 二 次 执行 前 的 内 容 是 {2, 3, 4}. 

类 collection.deque 支持 一 次 性 将 一 个 集合 的 元 素 添加 到 队列 尾部 的 extend 方法 。 重 新 实现 
Tree 类 的 广度 优先 遍历 的 方法 ,使 其 充分 利用 这 个 特性 。 

如 图 8-8 给 出 的 树 ， 试 写 出 代码 段 8-25 中 函数 parenthesize(T, T.root()) 的 输出 。 

对 于 一 棵 有 nn 个 节点 的 树 ， 代 码 段 8-25 中 的 函数 parenthesize(T, T.root()) 的 执行 时 间 是 多 少 ? 
请 用 伪 代 码 描述 一 个 算法 ， 该 算法 用 于 计算 在 先 序 遍历 中 给 出 一 个 计算 二 叉 树 中 每 个 节点 的 
子孙 节点 个 数 的 算法 。 该 算法 需要 基于 欧 拉 遍 历 。 

ExpressionTree 类 build espression tree 方法 中 的 输入 需要 一 个 字符 串 标 记 。 举 个 简单 的 例 
T. (3 + 1)*4)/((9 - 5) + 2))， 其 中 每 个 字符 是 它 本 身 的 标记 ， 因 此 这 个 字符 串 本 身 足 以 作 
为 build espression tree 的 输入 。 例 如 ， 字 符 串 (35-14) 需要 放 和 人 链表 PE '35', +, '14', 7], 
使 得 可 以 忽略 空格 ， 并 能 识别 多 维 字符 作为 令 牌 。 写 一 个 可 用 的 方法 tokenize() ， 以 返回 这 样 


一 个 令 牌 。 


将 一 棵 树 T 所 有 内 部 节点 的 深度 之 和 定义 为 内 部 路 径 长 度 AT)。 类 似 地 ， 将 一 棵 树 了 所 有 外 
部 节点 的 深度 之 和 定义 为 外 部 路 径 长 度 E(T)。 试 证 明 一 棵 有 nn 个 节点 的 完全 二 又 树 满足 公式 
E(T) - (T) * n- 1, 

(i TERA n ESKU, SHBG D EE 了 所 有 外 部 节点 深度 的 总 和 。 是 否 存在 树 7 有 最 
少 的 外 部 节点 使 得 D 的 运行 时 间 为 O(n)， 并 且 是 否 存 在 树 T 有 最 多 的 外 部 节点 使 得 DD 为 O(nlogn)? 
假设 T 是 一 棵 及 n 个 节点 的 二 叉 树 ， 并 假设 DD 是 树 TT 所 有 外 部 节点 的 深度 之 和 。 试 给 出 一 棵 
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树 ， 使 得 代码 段 8-4 PRU height] 方法 运行 在 最 坏 情况 下 。 

对 于 一 棵 树 7， 假 设 nj 表示 内 部 节点 的 个 数 ， 并 假设 ng 表示 外 部 节点 的 个 数 。 试 证 明 如 果 每 

个 内 部 节点 有 3 个 孩子 节点 ， 那 么 ns=2n1+ 1。 

如 果 两 个 有 序 树 T 和 7" 中 满足 如 下 两 点 的 任何 一 个 ， 则 称 它们 是 同 构 的 : 

e TAT" 是 空 树 。 

e TAIT" 的 根 节点 有 相同 数量 的 大 个 子 树 (上 三 0) 并 且 T' 和 7" 的 第 i 个 子 树 也 是 同 构 的 ， 
Rh i=1, 2, =, ko 

试 设计 一 个 测试 两 棵 给 定 的 有 序 树 是 否 是 同 构 的 算法 ， 并 说 明 该 算法 的 运行 时 间 。 

斌 证明 及 个 内 部 节点 的 2" 个 不 完全 二 义 树 中 没有 一 对 是 同 构 的 (参见 C-8.35 ) 。 

如 果 排 除 同 构 树 ， 那 么 有 多 少 棵 完全 二 又 树 存在 4 个 叶子 节点 ? 

给 LinkedBinaryTree 增加 一 个 delete subtree(p) 方法 。 该 方法 能 够 移 除 以 p 节点 为 根 节点 的 

整个 子 树 ， 并 维持 整 棵 树 所 有 节点 的 个 数 的 不 变性 。 这 个 方法 的 运行 时 间 是 多 少 ? 

在 LinkedBinaryTree 中 增加 一 个 _swap(p, 9) 方法 ， 该 方法 能 够 交换 节点 p Ag, ZI 

然 。 需 要 考虑 节点 是 邻 边 节点 的 情况 。 

如 果 充 分 利用 哨兵 节点 (该 哨兵 节点 指 的 是 树 实例 的 _sentinel 数 量 )， 我 们 可 以 简化 

LinkedBinaryTree 的 实现 过 程 。 哨 兵 是 树 的 根 节点 的 父 节点 ， 而 根 节点 是 哨兵 的 左 孩 子 节点 。 

此 外 ， 哨 兵 将 取代 None 来 表示 节点 中 _left 或 _right 的 数量 ， 而 不 需要 这 样 的 孩子 节点 。 请 

给 出 更 新 方法 delete 和 attach 的 新 的 实现 。 

请 描述 如 何 通过 使 用 attach 方法 来 复制 一 个 LinkedBinaryTree 的 完全 二 义 树 实例 。 

请 描述 如 何 通过 使 用 add left 和 add. right 方法 来 复制 一 个 LinkedBinaryTree 的 完全 二 又 树 实例 。 

对 于 一 棵 有 序 树 ， 我 们 可 以 定义 一 种 二 又 树 表示  ( 见 图 8-23 ): 

e 对 于 树 了 中 的 每 个 位 置 P， 树 7' 中 都 有 一 个 与 其 相关 的 位 置 p'。 

e 如 果 p 是 树 T 了 的 叶子 节点 ， 那么 TT' 中 的 p' 没有 任何 孩子 节点 ; BW, p' 的 左 孩 子 节点 是 q'。 
其 中 gq ER T 的 第 一 个 孩子 节点 。 

e 如 果树 7 中 pp 有 一 个 相 邻 节点 q， 那 么 d ER TE p 的 右 孩 子 节 点 ; 否则 ，p' 没有 右 孩 子 
As 

假设 树 T" 是 常见 有 序 树 7 的 一 种 表示 ， 请 回答 如 下 的 问题 : 

a) 7T' 的 先 序 遍 历 和 7 的 先 序 遍 历 是 否 相 同 ? 

b) T' 的 先 序 遍历 和 7 的 中 序 遍 历 是 否 相 同 ? 

c) T' 的 中 序 遍 历 是 否 是 树 了 标准 遍历 中 的 一 种 ? 如 果 是 ， 是 下 面 的 哪 一 种 ( 见 图 8-23) ? 
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图 8-23 ”一 棵 二 又 树 的 表示 方法 


对 于 树 7 中 的 每 个 位 置 p， 给 出 一 个 计算 并 打印 p 后 面子 树 元 素 的 高 效 算法 。 
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给 出 一 个 计算 树 了 中 所 有 节点 深度 的 运行 时 间 为 O(n) AE, Hor n 是 树 中 节点 的 个 数 。 

树 了 的 路 径 长 度 是 其 中 所 有 节点 的 深度 之 和 。 请 给 出 一 个 计算 树 路 径 长 度 的 线性 时 间 算 法 。 

一 棵 完全 二 又 树 的 内 部 节点 p 的 左 子 树 与 右 子 树 的 高 度 ORE) 差 即 为 该 节点 的 平衡 因子 。 试 

描述 如 何 利 用 8.4.6 节 的 欧 拉 遍历 来 打印 一 棵 平衡 二 又 树 的 所 有 内 部 节点 的 平衡 因子 。 

给 定 一 棵 完全 二 叉 树 7， 定 义 TT' 是 树 7 的 镜像 ， 其 中 7 了 的 每 个 节点 v 同样 也 是 7' 的 节点 ,但 

是 树 T 中 节点 v 的 左 孩子 是 树 PY PAM. MT PPA v WATER TNA 

的 左 孩 子 。 试 说 明 对 一 棵 完全 二 又 树 7 的 先 序 遍历 和 树 T' 镜像 的 后 序 遍 历 完全 一 样 ， 只 是 顺 

序 相反 。 

假设 在 遍历 时 给 位 置 为 p 的 元 素 定义 一 个 排名 ， 第 一 个 被 遍历 到 的 元 素 排名 第 一 ， 第 二 个 被 

遍历 到 的 元 素 排 名 第 二 ， 以 此 类 推 。 对 于 每 一 个 处 于 位 置 p 的 元 素 ， 我们 假设 pre(p) 是 对 树 

了 中 处 于 位 置 的 元 素 在 先 序 遍 历时 的 排名 ，post(p) 是 对 树 7 中 处 于 位 置 p 的 元 素 在 后 续 遍 

历时 的 排名 。 假 设 depth(p) 是 处 于 位 置 p 的 深度 ，desc(p) 是 处 于 位 置 p 的 后 代 的 数量 (包括 

pA). MPM 了 中 的 每 一 个 节点 ， 请 给 出 post(p)、desc(p)、depth(p) 和 pre(p) 的 公开 

对 一 棵 给 定 的 二 叉 树 设计 支持 如 下 操作 的 算法 : 

e preorder next(p) : 对 树 7 进行 先 序 壳 历时 ， 返 回访 问 p 后 下 一 个 将 要 访问 的 节点 的 位 置 
GIR p 是 最 后 一 个 节点 ， 则 返回 空 )。 

e inorder next(p): 对 树 7 了 进行 中 序 遍历 时 ， 返 回访 问 p 后 下 一 个 将 要 访问 的 节点 的 位 置 (如 
Kp 是 最 后 一 个 节点 ， 则 返回 空 )。 

e postorder next(p) : 对 树 7 进行 后 序 遍 历时 ， 返 回访 问 p 后 下 一 个 将 要 访问 的 节点 的 位 置 
GIR p 是 最 后 一 个 节点 ， 则 返回 空 )。 

在 最 坏 情况 下 ， 这 些 算法 的 执行 时 间 是 多 少 ? 

为 了 实现 LinkedBinaryTree 类 的 preorder 方法 ,我 们 需要 利用 Python 的 生成 器 句法 和 yield 
态 。 请 给 出 preorder 的 另 一 种 实现 ， 返 回 艇 套 迭 代 器 类 的 显 式 实例 。( 参 见 2.3.4 PRE 

代 器 的 讨论 。) 

算法 preorder draw 通过 指定 每 个 位 置 p 的 横 纵 坐标 来 生成 一 棵 二 又 树 ， 其 中 x(p) 是 先 序 遍历 

中 pp 前 的 节点 的 数量 。y(p) ÆRE p 的 深度 。 

a) 试 说 明 通 过 算法 preorder_draw 产生 的 二 又 树 没 有 两 条 相交 的 边 。 

b) 通过 算法 preorder_draw 重新 生成 图 8-22 中 的 树 。 

通过 与 算法 preorder draw 相似 的 postorder_draw 算法 重 做 先前 的 问题 ， 其 中 x(p) 是 后 续 遍 历 

中 pp 前 的 节点 的 数量 。 

使 用 与 中 序 遍历 生成 一 棵 二 又 树 相 同 的 方法 设计 一 个 生成 普通 树 的 算法 。 

练习 P-4.27 描述 了 os 模块 中 的 walk 晴 数 。 该 函数 对 文件 系统 的 树 形 结构 执行 遍历 。 查 看 该 

函数 的 文档 ， 特 别 是 其 中 一 个 可 选 的 称 为 topdown 的 布尔 参数 的 使 用 。 试 描述 其 与 本 章 讨论 

的 树 遍 历 算法 有 何 关系 。 

树 了 的 缩 进 表示 是 树 了 附带 说 明 ( 详 见 代码 段 8-25 ) 表示 的 另 一 种 形式 ， 其 使 用 如 图 8-24 所 

示 的 缩 进 表 示 。 请 给 出 一 个 能 打印 出 这 种 树 的 算法 。 

假设 树 7 是 一 棵 有 nn 个 节点 的 二 叉 树 ,定义 罗马 位 置 p 为 这 样 一 个 位 置 : 该 位 置 的 左 子 树 的 

数量 与 其 右 子 树 的 数量 最 多 不 少 于 $。 给 出 一 个 寻找 树 了 中 每 个 位 置 的 线性 时 间 算 法 ， 在 树 7 

中 , p 不 是 罗马 位 置 , 但 所 有 的 后 代 节 点 是 罗马 位 置 。 

假设 7 是 一 棵 有 nn 个 节点 的 树 ， 定义 这 个 最 低 的 共同 祖先 (LCA) 是 在 树 了 中 两 个 最 低位 置 
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之 间 都 有 p Al q 作为 祖先 的 节点 (其 中 我 们 允许 一 个 位 置 自己 作为 祖先 )。 给 定 两 个 位 置 p 和 
4， 给 出 一 个 寻找 已 和 4 的 LCA 的 高 效 算 法 。 该 算法 的 运行 时 间 是 多 少 ? 
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a) b) 
图 8-24 a) WT; b) 树 7T 的 缩 进 表示 


假设 T 是 一 个 有 nn 个 节点 的 二 义 树 ， 并且 对 于 7 中 的 任何 一 个 位 置 p, 假设 d, REH TP p 
的 深度 ， 那 么 两 个 节点 p 和 g 之 间 的 长 度 用 qd,+ d, -24 表示。 其 中 a 是 p 和 9g 的 LCA。 树 
7 的 直径 是 树 中 两 个 节点 的 最 远 距 离 。 给 出 一 个 寻找 树 7 直径 的 高 效 算 法 。 其 运行 时 间 是 
多 少 ? 

假设 一 棵 二 又 树 T 中 的 每 个 节点 附 有 一 个 值 f(p)， 试 设计 一 个 快速 决定 LCA 的 f(a) 的 算法 ， 
其 中 flq) f f(p) 给 定 ， 你 不 需要 寻找 到 位 置 a， 只 要 得 出 f(a)。 

请 给 出 一 个 ExpressionTree 类 中 _expression_tree 方法 的 可 选 方法 。 该 方法 依赖 构建 树 欧 拉 环 
路 的 递归 。 

在 ExpressionTree 类 build expression tree 方 法 中 的 叶子 节点 的 令 牌 可 以 是 任何 字符 串 ， 例 
如 ， 其 解析 表达 式 (a*(b + c))， 然 而 在 评估 方法 中 ， 当 尝试 将 一 个 叶子 令 牌 转换 为 一 个 数字 
时 会 产生 一 个 错误 。 修 改 这 个 评估 方法 ,使 其 能 够 接受 一 个 可 选 的 Python 中 的 字典 ， 可 以 使 
用 这 样 的 字符 串 映射 到 数值 。 比 如 这 样 一 个 表达 ，T.evaluate( ('a', :3, 'b':1', 'c':5})。 通 过 这 种 
方式 ， 这 个 相同 的 代数 表达 式 可 以 使 用 不 用 的 值 评估 。 

正如 C-6.22 中 提 到 的 ， 后 缀 表达 法 是 一 种 明确 的 算式 表达 式 的 方法 。 如 果 对 于 表达 式 “(exp) 
op(exp;)”， 这 是 一 个 正常 的 算术 表达 式 的 表示 方法 ， 其 后 级 表达 式 是 “ pexp, pexp op", H 
中 pexp; 和 pexp; 分 别 是 exp, 和 exp: 的 后 缀 表示 法 。 一 个 数字 和 一 个 常量 的 后 缀 表示 法 就 是 
其 本 身 。 例 如 ， 表 达 式 “ ((5 + 2)*(8 - 3))/4” 的 后 缀 表达 式 是 “5 2 + 8 3 - *4/”。 请 实现 8.5 
节 给 出 的 ExpressionTree 类 中 实现 了 这 种 后 缀 表达 式 的 方法 postfix. 


使 用 8.3.2 节 描 述 的 基于 数组 的 表示 实现 二 又 树 的 抽象 数据 类 型 。 

使 用 8.33 节 描 述 的 链表 结构 实现 树 的 抽象 数据 类 型 ， 并 给 出 一 个 合理 的 更 新 方法 集 。 
LinkedBinaryTree 类 的 内 存 使 用 能 够 通过 移 除 每 个 节点 的 双亲 节点 的 指针 来 改进 。 不 用 保存 
每 个 位 置 实例 的 位 置 ， 而 是 用 一 系列 节点 代表 从 根 节点 到 每 个 节点 的 整个 路 径 (这 通常 可 以 
节省 内 存 是 因为 这 样 可 以 存储 更 少 的 指针 )。 使 用 这 种 策略 重新 实现 LinkedBinaryTree 类 。 
切片 平面 图 将 一 个 抢 形 分 割 成 垂直 和 平行 切片 两 种 形式 ( 见 图 8-25a)。 一 种 切片 平面 图 能 够 
通过 一 个 恰当 的 二 叉 树 表示 一 一 称 为 切片 二 叉 树 。 其 内 部 节点 代表 切片 ， 并 且 整 个 外 部 节点 
表示 整个 切片 中 的 基本 和 抢 形 ( 见 图 8-25b)。 这 个 压缩 问题 的 描述 为 : 假定 一 个 切片 平面 图 中 
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每 个 基本 的 平面 图 像 被 指定 了 一 个 最 小 的 宽度 w 和 一 个 最 小 的 高 度 h。 这 个 压缩 问题 就 是 找 
到 其 中 宽度 最 小 和 高 度 最 小 的 和 矩形。 这 个 问题 需要 对 每 个 位 置 p 指定 h(p) 和 w(p)， 如 下 
所 示 : 
w 如 果 p 是 叶子 节点 ， 其 基本 人 矩形 有 最 小 宽度 w 
WT A Ar, ge 
w(1) *w(r) ”如 果 p 是 内 部 节点 ， 则 是 一 个 垂直 切片 ， 左 孩子 为 !， 右 孩子 为 r 
h JupAEcpOS GR. RORORGBGUOH ONE w 
hh(1) +h(r) — 如果 P 是 内 部 节点 ， 则 是 一 个 水 平 切片 ， 左 孩子 为 1， 右 孩子 为 r 
max(h(I),h(r) 如 果 P 是 内 部 节点 ， 则 是 一 个 垂直 切片 ， 左 孩子 为 ?7， 右 孩子 为 r 
设计 一 个 支持 如 下 操作 的 数据 结构 : 
创建 一 个 切片 平面 图 以 包含 一 个 基本 矩形 。 
e. 通过 水 平方 式 分 解 一 个 基本 图 形 。 
e. 通过 垂直 方式 分 解 一 个 基本 图 形 。 
e 给 一 个 基本 图 形 分 配 最 小 的 长 宽 。 
e. 画 出 一 个 切片 平面 图 的 树 。 
e. 夯 出 一 个 切片 平面 图 。 
P-8.68 ” 写 一 个 能 够 有 效 地 玩 三 连 棋 (或 称 井 字模 ) ( 见 5.6 节 ) 的 程序 ， 为 了 实现 这 个 程序 ， 你 需要 
创建 一 棵 博弈 树 7， 其 中 每 个 节点 都 需要 进行 参数 配置 。 在 8.4.2 节 描 述 的 情况 中 ， 根 节点 是 
最 初 的 配置 。 对 于 每 个 内 部 节点 p. p 的 孩子 节点 反映 了 我 们 能 够 从 p 节点 获取 的 游戏 状态 ， 
BA (第 一 个 玩家 ) 或 者 B (第 二 个 玩家 ) 的 一 步 符合 规则 的 移动 。 偶 数 深度 的 位 置 与 4 的 移 
动 有 关 ， 奇 数 深度 的 位 置 与 B 的 移动 有 关 。 叶 子 节点 要 么 是 最 终 游 戏 的 状态 ， 要么 就 是 我 们 
不 想 继续 探索 的 状态 。 我 们 计算 每 一 个 叶子 节点 的 值 ， 以 表示 玩家 4 状态 的 好 坏 。 在 大 型 游 
戏 中 (如 象棋 )， 我 们 需要 使 用 一 个 启发 式 的 函数 ， 但 是 对 于 小 游戏 (如 井 字 棋 )， 我 们 能 够 构 
造 整个 博弈 树 并 且 为 叶子 节点 赋值 + 1、- 1 和 0， 以 此 来 表明 玩家 4 获胜 、 平 局 还 是 失败 。 
在 选择 移动 方式 时 ， 一 个 好 的 算法 是 极 大 极 小 算法 。 在 这 个 算法 中 ， 我 们 分 配 一 个 分 数 给 每 
一 个 内 部 节点 p， 这 样 p 就 代表 4 的 方向 。 我 们 计算 p 的 最 高 分 数 作为 p 的 孩子 节点 。 如 果 
内 部 节点 代表 B 的 方向 ， 则 计算 p 的 最 小 分 数 作为 p 的 孩子 节点 。 
P-8.69 ”使 用 练习 C-8.43 描述 的 二 叉 树 实现 树 的 抽象 数据 结构 。 你 需要 使 用 LinkedBinaryTree 实现 。 
P-8.70” 试 编写 一 个 程序 ， 用 于 将 一 棵 树 和 树 中 的 一 个 节点 p 作为 输入 ， 将 其 转换 成 男 外 一 棵 有 相同 
节点 的 树 ， 但 这 次 p 是 根 节 点 。 


扩展 阅读 


经 典 先 序 、 中 序 和 后 序 树 遍 历 方法 的 讨论 可 以 在 Knuth 的 《 Fundamental Algorithms ) — +3 ™! 
中 找到 。 欧 拉 遍 历 技术 源 于 并 行 算法 社区 ， 它 由 Tarjan 和 Vishkin?? 5| A, H JáJáP" 和 Karp 和 
Ramachandran™ 进行 了 讨论 。 建 树 的 算法 通常 被 认为 是 建 图 算法 的 一 部 分 。 对 建 图 感 兴趣 的 读者 可 以 
参考 由 Di Battista, Eades, Tamassia 和 Tollis 编写 的 书 94! 以 及 Tamassia 和 Liottals2 的 调查 。 


h(p) = 
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9.1 ”优先 级 队列 的 抽象 数据 类 型 


9.1.1 优先 级 


在 第 6 章 ， 我 们 介绍 了 队列 ADT 是 一 个 根据 先进 先 出 (FIFO) 策略 在 队列 中 添加 
和 移 除数 据 的 对 象 集合 。 公 司 的 客户 呼叫 中 心 实现 了 这 样 一 个 模型 : 在 该 模型 中 ， 客 户 
被 告知 “呼叫 将 按照 呼叫 中 心 接受 的 顺序 来 应 答 ”。 在 其 设置 中 ， 一 个 新 的 呼叫 被 追加 
到 队列 的 末尾 ， 每 当 一 个 客户 服务 代表 可 以 提供 服务 时 ， 他 将 应 答 等 待 队列 最 前 端的 
客户 。 

在 现实 生活 中 ， 有 许多 应 用 使 用 类 似 队 列 的 结构 来 管理 需要 顺序 处 理 的 对 象 ， 但 仅 有 
先进 先 出 的 策略 是 不 够 的 。 比 如 ， 假 设 一 个 空中 交通 管制 中 心 必须 决定 在 众多 即将 降落 的 航 
班 中 先 为 哪 次 航班 清理 跑道 。 这 个 选择 可 能 受到 各 种 因素 的 影响 ， 比 如 每 个 飞机 跑道 之 间 
的 距离 、 着 陆 过 程 中 所 用 的 时 间或 燃料 的 余 量 。 着 陆 决 定 纯粹 基于 一 个 FIFO 策略 是 不 太 可 
能 的 。 

“ 先 来 先 服务 ”策略 在 某 些 情况 下 是 合理 的 ， 但 在 另 一 些 情况 下 ， 优 先 级 才 是 起 决定 作 
用 的 。 现 在 ， 我 们 用 另 一 个 航空 公司 的 例子 加 以 说 明 ， 假 设 一 个 航班 在 起 飞 前 一 个 小 时 被 
订 满 ， 由 于 有 旅客 取消 的 可 能 ， 航 空 公 司 维护 了 一 个 希望 获得 座位 的 候补 等 待 ( standby) 旅 
客 的 队列 。 尽 管 等 待 旅客 的 优先 级 受到 其 检票 时 间 的 影响 ， 但 包括 支付 机 票 和 是 否 频繁 飞行 
( 常 飞 乘客 ) 在 内 的 其 他 因素 都 需要 考虑 。 因 此 ， 如 果 某 位 乘客 被 航空 公司 代理 赋予 了 更 高 
的 优先 级 ， 那 么 当 飞机 上 出 现 空闲 座位 时 ， 即 使 他 比 其 他 乘客 到 得 晚 ， 他 也 有 可 能 买 到 这 张 
机 票 。 

在 本 章 中 ， 我 们 介绍 一 个 新 的 抽象 数据 类 型 ， 那 就 是 优先 级 队列 。 这 是 一 个 包含 优先 级 
元 素 的 集合 ， 这 个 集合 允许 插入 任意 的 元 素 ， 并 人 允许 删除 拥有 最 高 优先 级 的 元 素 。 当 一 个 元 
素 被 插入 优先 级 队列 中 时 ， 用 户 可 以 通过 提供 一 个 关联 键 来 为 该 元 素 赋予 一 定 的 优先 级 。 键 
值 最 小 的 元 素 将 是 下 一 个 从 队列 中 移 除 的 元 素 (因此 ， 一 个 键 值 为 1 的 元 素 将 获得 比 键 值 为 
2 的 元 素 更 高 的 优先 级 )。 虽 然 用 数字 表示 优先 级 是 相当 普遍 的 ， 但 是 任何 Python WR, A 
要 对 象 类 型 中 的 任何 实例 a I b, HF a < ob 都 支持 一 个 一 致 的 释义 ， 那么 该 对 象 就 可 以 用 
于 定义 键 的 自然 顺序 。 有 了 这 样 的 普遍 性 ， 应 用 程序 可 以 为 每 个 元 素 定义 它们 自己 的 优先 级 
概念 。 比 如 ， 不 同 的 金融 分 析 师 可 以 给 特定 的 资产 指定 不 同 的 评级 ( 即 优 先 级 )， 如 股票 的 
份额 。 


9.1.2 ”优先 级 队列 的 抽象 数据 类 型 的 实现 


我 们 形式 化 地 将 一 个 元 素 和 它 的 优先 级 用 一 个 key-value 对 进行 建 模 。 我 们 在 优先 级 队 
列 P 上 定义 优先 级 队列 ADT， 以 支持 如 下 的 方法 : 
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e P.add(k, v): 向 优先 级 队列 P 中 插入 一 个 拥有 键 k AE v 的 元 组 。 

e Pmin(): 返回 一 个 元 组 (k, v)， 代 表 优先 级 队列 P 中 一 个 包含 键 和 值 的 元 组 ， 该 元 组 
的 键 值 是 最 小 值 (但 是 没有 移 除 该 元 组 ); 如 果 队 列 为 空 ， 将 发 生 错误 。 

e Premove min() : 从 优先 级 队列 P 中 移 除 一 个 拥有 最 小 键 值 的 元 组 ， 并 且 返 回 这 个 被 
移 除 的 元 组 ，( k, v) 代表 这 个 被 移 除 的 元 组 的 键 和 值 ; 如 果 优先 级 队列 为 空 ， 将 发 生 
错误 。 

e Pis empty(): 如 果 优 先 级 队列 不 包含 任何 元 组 ， 将 返回 True。 

e len(P): 返回 优先 级 队列 中 元 组 的 数量 。 

一 个 优先 级 队列 中 可 能 包含 多 个 键 值 相等 的 条 目 ， 在 这 种 情况 下 min fll remove min 方 
法 可 能 从 具有 最 小 键 值 的 元 组 中 任 选 一 个 返回 。 值 可 以 是 任何 对 象 类 型 。 

在 优先 级 队列 的 初始 模型 中 ， 假 设 一 个 元 素 一 旦 被 加 入 优先 级 队列 ， 它 的 键 值 将 保持 不 
变 。 在 9.5 节 中 ， 我们 考虑 对 这 个 初始 模型 进行 扩展 ， 扩 展 后 允许 用 户 更 新 优先 级 队列 中 的 
元 素 的 键 。 

例题 9-1 : 下 表 展 示 了 一 个 初始 为 空 的 优先 级 队列 P 中 的 一 系列 操作 及 其 产生 的 效果 。 
由 于 它 将 条 目 以 键 排序 的 元 组 形式 列 出 ， 因 此 “优先 级 队列 ”一 列 是 有 误 的 。 这 样 的 一 个 内 
部 表示 不 需要 优先 级 队列 。 


NN: [TTE 
Pada(s, A) | w 

P.add(9, C) es FF (5, A), (9, C) 

P.add(3, B) ENS ees {(3, B), (5, A) (9, C)} 
P.add(7, D) P| £3, BY, AD, C. D), 8, OF 
P.min() {G, B), (5, A), (7, D), (9, C) 
P.remove_min() {(5, A), (7, D), (9, C)} 
Premove min() {(7, D), (9, C) 

lent?) (0, D 9,0) 

P.remove min() {(9, C) 

Premove min() 8 

m T 

Premove. min 0 


9.2 ”优先 级 队列 的 实现 


在 本 节 中 ， 我 们 将 展示 如 何 通过 给 一 个 位 置 列 表 工 中 的 条 目 排 序 来 实现 一 个 优先 级 队列 
(UL 7.4 节 )。 根 据 在 列表 工 中 保存 条 目 时 是 否 按键 排序 ， 我 们 提供 了 两 种 实现 。 


9.2.1 组 合 设计 模式 


即使 在 数据 结构 中 已 经 重新 定义 了 元 组 ， 我 们 仍 需要 同时 追踪 元 素 和 它 的 键 值 ， 这 是 实 
现 优先 级 队列 的 挑战 之 一 。 这 一 点 让 我 们 想起 在 7.6 节 的 案例 讨论 中 ， 我 们 为 每 个 元 素 维护 
一 个 访问 计数 器 的 做 法 。 在 那 种 设 定 下 ， 我 们 介绍 了 组 合 设计 模式 ,定义 了 一 个 _Item 类 ， 
用 它 来 确保 在 主要 的 数据 结构 中 每 个 元 组 保存 它 相关 计 数值 。 
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对 于 优先 级 队列 ， 我 们 将 使 用 组 合 设计 模式 来 存储 内 部 元 组 ， 该 元 组 包含 键 上 和 值 " 构 
成 的 数值 对 。 为 了 在 所 有 优先 级 队列 中 实现 这 种 概念 ， 我 们 给 出 了 一 个 PriorityQueueBase 
类 ( 见 代码 段 9-1 )， 其 中 包含 一 个 能 套 类 Item 的 定义 。 对 于 元 组 实例 a 和 b， 我 们 基于 关 
键 字 定 义 了 语法 a < b。 


代码 段 9-1  PriorityQueueBase 类 包含 一 个 嵌 套 类 _ltem， 它 将 键 和 值 组 成 单独 的 对 象 。 为 了 方便 ， 
我 们 给 出 了 is empty 的 具体 实现 ， 它 是 在 一 个 假定 的 __len__ 的 实现 的 基础 上 实现 的 


class PriorityQueueBase: 


1 

2  """Abstract base class for a priority queue." "” 

3 

4 class ltem: 

5 """ Lightweight composite to store priority queue items." "" 

6 --Slots__ = ' key', ' value' 

E 

8 def — init... (self, k, v): 

9 self. key — k 
10 self. value — v 
l1 
12 def |. It. (self, other): 
13 return self. key < other. key # compare items based on their keys 
14 
15 def is_empty(self): # concrete method assuming abstract len 
16 "Return True if the priority queue is empty." "" 

17 return len(self) == 0 


9.2.2 ”使 用 未 排序 列表 实现 优先 级 队列 


在 第 一 个 具体 的 优先 级 队列 实现 中 ， 我 们 使 用 一 个 未 排序 列表 存储 各 个 条 目 。 代 码 段 9-2 中 
给 出 了 UnsortedPriorityQueue 类 ， 它 继承 自 代 码 段 9-1 中 的 PriorityQueueBase 类 。 对 于 内 
部 存储 ， 键 - 值 对 是 使 用 继承 类 Item 的 实例 进行 组 合 表示 的 。 这 些 元 组 是 用 PositionalList 
存储 的 ， 它 们 被 视 为 类 中 的 data 成 员 。 在 7.4 节 中 ， 我 们 假设 位 置 列 表 用 一 个 双向 链表 实 
现 ， 因 此 所 有 ADT 操作 执行 的 时 间 复 杂 度 为 O(1)。 

在 构建 一 个 新 的 优先 级 队列 时 ， 我 们 从 一 个 空 的 列表 开始 。 无 论 何 时 ， 列 表 的 大 小 都 
等 于 存储 在 优先 级 队列 中 键 - 值 对 的 数量 。 由 于 这 个 原因 ， 优 先 级 队列 — len ”方法 能 够 简 
单 地 返回 内 部 data 列表 的 长 度 。 通 过 设计 我 们 的 PriorityQueueBase 类 ， 可 以 继承 is empty 
方法 的 具体 实现 ， 这 种 方法 依赖 于 调用 我 们 的 _len_ FW. 

通过 add 方法 ， 每 次 将 一 个 键 - 值 对 追加 到 优先 级 队列 中 ， 对 于 给 定 的 键 和 值 ， 我 们 创 
建 了 一 个 新 的 _Item 的 元 组 (组 成 )， 并 且 将 这 个 元 组 追加 到 列表 的 末端 。 这 一 实现 的 时 间 复 
AREA 0(1)。 

当 min 或 者 remove_min 方法 被 调用 时 ， 我 们 必须 定位 键 值 最 小 的 元 组 ， 这 是 另 一 个 
挑战 。 由 于 元 组 没有 被 排序 ， 我 们 必须 检查 所 有 元 组 才能 找到 键 值 最 小 的 元 组 。 为 了 方便 ， 
我 们 定义 了 一 个 非 公 有 的 方法 find min， 它 用 于 返回 键 值 最 小 的 元 组 的 位 置 。 获 得 了 位 
置信 息 ， 就 允许 remove min 方法 可 以 在 位 置 列表 上 调用 delete 方法 。 当 准备 返回 一 个 键 - 
值 对 元 组 时 ，min 方法 可 以 简单 地 使 用 位 置 来 检索 列表 元 组 。 由 于 是 用 循环 查找 最 小 键 值 
的 ， 因 此 min fll remove min 方法 的 时 间 复 杂 度 均 为 O(n)， 其 中 为 优先 级 队列 中 元 组 的 
数量 。 

对 于 UnsortedPriorityQueue 类 的 时 间 复 杂 度 的 总 结 见 表 9-1。 
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表 9-1 长 度 为 n 的 优先 级 队列 中 各 方法 最 坏 情 况 下 的 运行 时 间 。 以 未 排序 的 双 
向 链表 实现 ， 空 间 需 求 为 O(n) 


操 作 运行 时 间 
len O(1) 
is empty O(1) 
add O(1) 
min O(n) 
remove min O(n) 


代码 段 9-2 ”使 用 未 排序 列表 实现 的 优先 级 队列 。 父 类 PriorityQueueBase 由 代码 
段 9-1 给 出 ，PositionalList 类 来 源 于 7.4 节 


class UnsortedPriorityQueue(PriorityQueueBase): # base class defines Item 


l 

2  """A min-oriented priority queue implemented with an unsorted list." "" 

3 

4 def find min(self): # nonpublic utility 

5 """ Return Position of item with minimum key." "" 

6 if self.is empty( ): # is. empty inherited from base class 
7 raise Empty('Priority queue is empty!) 

8 small = self. data.first() 

9 walk = self. data.after(small) 


10 while walk is not None: 
11 if walk.element( ) « small.element(): 


12 small — walk 
13 walk = self. data.after(walk) 
14 return small 


16 def . init. (self): 


17 """ Create a new empty Priority Queue." "" 

18 self. data = PositionalList( ) 

19 

20 def . len. (self): 

21 "=" Return the number of items in the priority queue." "" 
22 return len(self. data) 

23 

24 def add(self, key, value): 

25 """ Add a key-value pair." " " 

26 self. data.add last(self. Item(key, value)) 

27 

28 def min(self): 

29 """ Return but do not remove (k,v) tuple with minimum key." "" 
30 p = self. find min() 

3l item — p.element() 

32 return (item._key, item._value) 

33 

34 def remove_min(self): 

35 """ Remove and return (k,v) tuple with minimum key." "" 
36 p = self._find_min() 

37 item = self._data.delete(p) 

38 return (item._key, item._value) 


9.2.3 ”使 用 排序 列表 实现 优先 级 队列 

优先 级 队列 的 另 一 个 替代 实现 是 使 用 位 置 列 表 ， 列 表 中 的 元 组 以 键 值 非 递减 的 顺序 进行 
排序 。 这 样 可 以 保证 列表 的 第 一 个 元 组 是 拥有 最 小 键 值 的 元 组 。 

代码 段 9-3 给 出 了 SortedPriorityQueue 类 。 方 法 min fll remove min 的 实现 相当 直接 地 


240 RIŽ 


给 出 了 列表 的 第 一 个 元 素 拥 有 最 小 键 值 的 信息 。 我 们 根据 位 置 列 表 的 first 方 法 来 找到 第 一 
个 元 组 的 位 置 ， 并 使 用 delete 方法 来 删除 列表 中 的 元 组 。 假 设 列 表 是 使 用 一 个 双向 链表 实现 
的 ， 那么 min I remove min 操作 的 时 间 复 杂 度 为 O(1)。 

然而 ， 这 个 好 处 是 以 add 方法 花费 更 多 的 时 间 成 本 为 代价 的 ， 我 们 需要 扫描 列表 来 找到 
合适 的 位 置 ， 以 插入 新 的 元 组 。 实 现 从 列表 的 结尾 开始 反方 向 查找 ， 直 到 新 的 键 值 比 当前 元 
组 的 键 值 小 为 止 ; 在 最 坏 情况 下 ， 这 个 操作 会 一 直 扫 描 到 列表 的 最 前 端 。 因 此 ，add 方法 在 
最 坏 情 况 下 的 时 间 复 杂 度 是 O(n), n 是 执行 该 方法 时 优先 级 队列 元 组 的 数量 。 总 之 ， 当 使 用 
一 个 已 排序 列表 来 实现 优先 级 队列 时 ， 插 入 操作 的 运行 时 间 是 线性 的 ， 而 查找 和 移 除 最 小 键 
值 的 元 组 的 操作 则 能 在 常数 时 间 内 完成 。 

比较 两 种 基于 列表 的 实现 

K 9-2 详细 地 比较 了 分 别 通 过 已 排序 列表 和 未 排序 列表 实现 的 优先 级 队列 的 各 方法 的 运 
行 时 间 。 当 使 用 列表 来 实现 优先 级 队列 ADT 时 ， 我 们 看 到 一 个 有 趣 的 权衡 。 一 个 未 排序 的 
列表 会 支持 快速 插入 操作 ， 但 是 查询 和 删除 操作 就 会 比较 慢 ; 相反 ， 一 个 已 排序 列表 实现 的 
优先 级 队列 支持 快速 查询 和 删除 操作 ， 但 是 插入 操作 就 比较 慢 。 


表 9-2 大 小 为 n 的 优先 级 队列 的 各 方法 在 最 坏 情况 下 的 运行 时 间 。 假 设 列 表 是 
由 双向 链表 实现 的 ， 其 空间 使 用 量 为 O(n) 
R e RAR 
Le od) 
i empy au) 
T ow) 
= au 


代码 段 9-3 ”使 用 排序 列表 实现 的 优先 级 队列 。 父 类 PriorityQueueBase 在 代码 段 9-1 
中 给 出 ，PositionaList 类 在 7.4 节 给 出 
class SortedPriorityQueue(PriorityQueueBase): # base class defines Item 


""" A min-oriented priority queue implemented with a sorted list." "" 


l 
2 
3 
4 def init. (self): 

5 """ Create a new empty Priority Queue." "" 
6 self. data — PositionalList() 

7 

8 


def . len. (self): 
9 """ Return the number of items in the priority queue." "" 


10 return len(self. data) 


12 def add(self, key, value): 


13 """ Add a key-value pair." "" 

14 newest = self. Item(key, value) # make new item instance 
15 walk = self._data.last( ) # walk backward looking for smaller key 
16 while walk is not None and newest < walk.element( ): 

17 walk = self. data.before(walk) 

18 if walk is None: 

19 self. data.add first(newest) # new key is smallest 

20 else: 

21 self. data.add. after(walk, newest) # newest goes after walk 


23 def min(self): 
24 """ Return but do not remove (k,v) tuple with minimum key." "" 
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25 if self.is empty(): 
26 raise Empty('Priority queue is empty.') 
27 p = self. data .first() 
28 item — p.element() 
29 return (item. key, item. value) 
30 
31 def remove. min(self): 
32 """ Remove and return (k,v) tuple with minimum key.""" 
33 if self.is empty( ): 
34 raise Empty('Priority queue is empty.') 
35 item = self. data.delete(self. data.first()) 
36 return (item.. key, item.. value) 
9.3 tf 


在 前 面 的 两 节 中 ， 实 现 优先 级 队列 ADT 的 两 种 策略 展示 了 一 个 有 趣 的 权衡 。 当 使 用 一 
个 未 排序 列表 来 存储 元 组 时 ， 我 们 能 够 以 OCT) 的 时 间 复 杂 度 实现 插入 ， 但 是 查找 或 者 移 除 
一 个 具有 最 小 键 值 的 元 组 则 需要 时 间 复 杂 度 为 O(n) 的 循环 操作 来 遍历 整个 元 组 集合 。 相 对 
应 地 ， 如 果 使 用 一 个 已 排序 列表 实现 的 优先 级 队列 ， 则 可 以 以 0(1) 的 时 间 复 杂 度 查找 或 者 
移 除 具有 最 小 键 值 的 元 组 ， 但 是 向 队列 追加 一 个 新 的 元 素 就 需要 O(n) 的 时 间 来 重新 存储 这 
个 排序 列表 的 序列 。 

在 本 节 中 ,我 们 使 用 一 个 称 为 二 进 制 堆 的 数据 结构 来 给 出 一 个 更 加 有 效 的 优先 级 队列 的 
实现 。 这 个 数据 结构 允许 我 们 以 对 数 时 间 复 杂 度 来 实现 插入 和 删除 操作 ， 这 相对 于 9.2 节 讨 
论 的 基于 列表 的 实现 有 很 大 的 改善 。 利 用 堆 实 现 这 种 改善 的 基本 方式 是 使 用 二 又 树 的 数据 结 
构 来 在 元 素 是 完全 无 序 和 完全 排 好 序 之 间 取 得 折 中 。 


9.3.1 堆 的 数据 结构 


HE ( 见 图 9-1) 是 一 棵 二 叉 树 7， 该 树 在 它 的 位 置 (节点 ) 上 存储 了 集合 中 的 元 组 并 且 满 
足 两 个 附加 的 属性 : 关系 属性 以 存储 键 的 形式 在 了 中 定义 ; 结构 属性 以 树 了 自身 形状 的 方式 
定义 。 关 系 属性 如 下 : 

Heap-Order 属性 : 在 堆 T 中 ， 对 于 除了 根 的 每 个 位 置 p， 存 储 在 p 中 的 键 值 大 于 或 等 
于 存储 在 p 的 父 节点 的 键 值 。 

作为 Heap-Order 属性 的 结果 ,7 中 从 根 到 叶子 的 路 径 上 的 键 值 是 以 非 递 减 顺 序 排列 的 。 
也 就 是 说 ， 一 个 最 小 的 键 总 是 存储 在 了 的 根 节点 中 。 这 使 得 调用 min 或 remove min Hf, 能 
够 比较 容易 地 定位 这 样 的 元 组 ， 一 般 情 况 下 它 被 认为 “在 堆 的 顶部 ”( 因 此 ， 给 这 种 数据 
结构 命名 为 “ 堆 ”) 。 顺 便 说 一 下 ， 这 里 定义 的 数据 结构 堆 与 被 用 作 支 持 一 种 程序 语言 (如 
Python) 的 运行 环境 的 内 存 堆 (Ub 15.1.1 节 ) 没 并 无 任何 关系 。 

由 于 效率 的 缘故 ， 我 们 想 让 堆 了 的 高 度 尽 可 能 小 ， 原 因 后 面 就 会 清楚 。 我 们 通过 坚持 让 
堆 了 满足 结构 属性 中 的 附加 属性 ,来 强制 满足 让 堆 的 高 度 尽 可 能 小 这 一 需求 。 一 一 它 必 须 是 
完全 二 叉 树 。 

完全 二 叉 树 属性 : 一 个 高 度 为 hh 的 堆 T 是 一 棵 完全 二 又 树 ， 那 么 了 的 0, 1,2, =, h- 
1 层 上 有 可 能 达到 节点 数 的 最 大 值 (Pp, TREAT, HO<i<h-1), JE B4 $5 
节点 在 hh 级 尽 可 能 保存 在 最 左 的 位 置 。 

图 9-1 中 的 树 是 完全 二 叉 树 ， 因 为 树 的 0、1、2 层 都 是 满 的， 并 且 3 层 的 6 个 节点 都 处 在 
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该 层 的 最 左边 位 置 上 。 对 于 最 左边 位 置 的 正式 说 法 ， 我 们 可 以 参考 8.3.2 节 中 有 关 层 级 编号 的 讨 
论 ， 即 基于 数组 的 二 又 树 表示 的 相关 内 容 (事实 上 ， 在 9.3.3 节 中 ,我 们 将 会 讨论 使 用 数组 来 表 
示 堆 )。 一 棵 含有 nn 个 节点 的 完全 二 又 树 ， 是 一 棵 含有 从 0 到 n 一 1 层级 编号 的 位 置 的 树 。 比 如 ， 
在 一 个 基于 数组 的 完全 二 叉 树 的 表示 中 ， 它 的 13 个 元 组 将 被 连续 地 存储 在 4[0] 到 4[12] 中 。 





图 9-1 一 个 含有 13 个 条 目的 堆 排序 的 例子 。 最 后 一 个 节点 保存 的 元 组 为 (13, W) 


堆 的 高 度 

使 用 h ER THRE, T 为 完全 二 又 树 一 定 会 有 一 个 重要 的 结论 ， 如 命题 9-2 所 示 。 

命题 9-2: 堆 T 有 nn 个 元 组 ， 则 它 的 高 度 h=|logn|。 

证 明 : 由 了 是 完全 二 又 树 可 知 ， 完 全 二 叉 树 T0 ~ h 一 1 层 节 点 的 数量 是 1+2+4++…++ 
2"'=2'-1, HHE h RN RRR HA 1 个 最 多 为 2 个。 因此 可 得 ; 

nz2'-1-1-22'fenx2*'-1-«2^-2**!-] 

ARER 2^ <n 两 边 取 对 数 ， 得 到 高 度 h < log n。 给 不 等 式 n <2'*'- 1 两 边 取 对 数 ， 得 
到 1og(n+1)--1h。 由 于 hh 为 整数 ， 因 此 这 两 个 不 等 式 可 简化 为 h=|longn|。 E 


9.3.2 ”使 用 堆 实现 优先 级 队列 


命题 9-2 有 一 个 重要 的 结论 ， 那 就 是 如 果 能 以 与 堆 的 高 度 成 比例 的 时 间 执 行 更 新 操作 ， 
那么 这 些 操作 将 在 对 数 级 的 时 间 内 完成 。 现 在 ,我 们 来 讨论 如 何 有 效 地 使 用 堆 来 实现 优先 级 
队列 中 的 各 个 方法 。 

我 们 将 使 用 9.2.1 节 的 组 合 模式 来 在 堆 中 存储 键 - 值 对 的 元 组 。len 和 is_empty 方法 能 
够 基于 对 树 的 检测 来 实现 。min 操作 相当 简单 ， 因 为 堆 的 属性 保证 了 树 的 根部 元 组 有 最 小 的 
键 值 。add fil remove min 的 实现 方法 都 是 有 趣 的 算法 。 

在 堆 中 增加 一 个 元 组 

让 我 们 考虑 如 何在 一 个 用 堆 了 实现 的 优先 级 队列 上 实现 add(k, v) 方法 。 我 们 把 键 值 对 
(k, v) 作为 元 组 存储 在 树 的 新 节点 中 。 为 了 维持 完全 二 又 树 属性 ， 这 个 新 节点 应 该 被 放 在 位 
置 p 上 ， 即 树 底 层 最 右 节 点 相 邻 的 位 置 。 如 果树 的 底层 节点 已 满 (或 堆 为 空 )， 则 应 存放 在 
新 一 层 的 最 左 位 置 上 。 

插入 元 组 后 堆 向 上 冒 泡 

在 这 个 操作 之 后 ， 树 7 为 完全 二 又 树 ,但 是 它 可 能 破坏 了 heap-order 属性 。 因 此 ， 除 非 
位 置 p 是 树 T 的 根 节点 (也 就 是 说 ,优先 级 队列 在 插入 操作 前 是 空 的 )， 否 则 我 们 将 对 p 位 
置 上 的 键 值 与 p 的 父 节点 gq (定义 p 的 父 节 点 为 q) 上 的 键 值 进行 比较 。 如 果 古 mk, DS 
JE heap-order 属性 日 算法 终止 。 如 果 嫩 < k， 则 需要 重新 调整 树 以 满足 heap-order 属性 ,我 
们 通过 调换 存储 在 位 置 p 和 q 的 元 组 来 实现 ( 见 图 9-2c 和 图 9-2d) 。 这 个 交换 导致 新 元 组 的 
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9-2 ”向 图 9-1 的 堆 中 插入 一 个 键 值 为 2 的 元 组 : a) 初始 堆 ; b) DUET add 操作 之 后 ; c) Md) 通过 交换 恢复 局 
部 的 有 序 属性 ; e) Af) 另 一 次 交换 ; g) Mh) 最 后 一 次 交换 
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层次 上 移 一 层 。 而 heap-order 属性 可 能 再 次 被 破坏 ， 因 此 ， 我 们 需要 在 树 了 重复 以 上 操作 ， 
直到 不 再 违背 heap-order 属性 位 置 ( 见 图 9-2 中 的 e 和 图 9-2h)。 

通过 交换 方式 上 移 新 插入 的 元 组 是 非常 方便 的 ， 这 种 操作 被 称 作 堆 向 上 冒 泡 (up-heap 
bubbling)。 交 换 既 解决 了 破坏 heap-order 属性 的 问题 ， 又 将 元 组 在 堆 中 和 间 上 移 一 层 。 在 
最 坏 情 况 下 ， 堆 癌 上 冒 泡 会 导致 新 增 元 组 问 上 一 直 移 动 到 堆 7 的 根 节 点 位 置 。 所 以 ，add 
方法 所 执行 的 交换 次 数 在 最 坏 情 况 下 等 于 7 的 高 度 。 根 据 命题 9-2， 我 们 得 知 高 度 的 上 界 
是 [lon n]. 

移 除 键 值 最 小 的 元 组 

让 我 们 现在 考虑 优先 级 队列 ADT 的 remove_min 方法 。 我 们 知道 键 值 最 小 的 元 组 被 存 
MEHE THRA r 上 (即使 有 多 于 一 个 元 组 含有 最 小 键 值 )。 但 是 ,一般 情况 下 我 们 不 能 
简单 删除 节点 +， 因为 这 将 产生 两 棵 不 相连 通 的 子 树 。 

相反 ,我 们 可 以 通过 删除 堆 7 了 最 后 位 置 p 上 的 叶子 节点 来 确保 堆 的 形状 满足 完全 二 又 
树 属性 ， 这 个 最 后 位 置 p 是 树 最 底层 的 最 靠 右 的 位 置 。 为 了 保存 最 后 位 置 p 上 的 元 组 ， 我 们 
将 该 位 置 上 的 元 组 复制 到 根 节点 x (就 是 那个 即将 要 执行 删除 操作 的 含有 最 小 键 值 的 元 组 )。 
图 9-3a 和 图 9-3b 展示 了 有 关 这 些 步 又 的 一 个 例子 ， 含 最 小 键 值 的 元 组 (4, C) 被 从 根部 删 
除 之 后 ， 该 位 置 由 来 自 最 后 位 置 的 元 组 (13, W) 所 填充 。 在 最 后 位 置 的 节点 被 从 树 中 删除 。 

删除 操作 后 堆 向 下 冒 泡 

在 还 没有 做 任何 处 理 时 ， 即 使 了 现在 是 完全 二 又 树 ， 它 也 很 有 可 能 已 经 破坏 了 heap- 
order 属性 。 如 果 TT 只 有 一 个 节点 OR), IA heap-order 属性 可 以 很 简单 地 满足 上 且 算 法 终止 。 
否则 ， 我 们 需要 区 分 两 种 情况 ， 这 里 将 己 初 始 化 为 了 的 根 : 

1) WR p RARE, S ce 表示 p 的 左 孩 子 。 

2) 否则 (p 有 两 个 孩子 ), S cR p 的 具有 较 小 键 值 的 孩子 。 

WR kp S ke, I) heap-order 属性 已 经 满足 ， 算 法 终止 ; 如 果 右 > 友 ， 则 需要 重新 调整 
元 组 位 置 来 满足 heap-order 属性 。 我 们 可 以 通过 交换 存储 在 p 和 c 上 的 元 组 来 使 得 局 部 满足 
heap-order 属性 ( 见 图 9-3c 和 图 9-3d)。 值 得 注意 的 是 ， 当 p 有 两 个 孩子 时 ,我们 着 重 考 虑 
两 个 孩子 节点 中 较 小 的 那个 。 不 仅 c 的 键 值 要 比 p 的 键 值 小 ， 还 要 至 少 和 c 的 兄弟 节点 的 键 
值 一 样 小 。 这 样 能 够 确保 当 较 小 的 键 值 被 提升 到 pb 或 c 的 兄弟 位 置 之 上 的 位 置 时 ,我 们 能 够 
通过 局 部 调整 的 方式 来 满足 heap-order 属性 。 

在 恢复 了 节点 p 相对 于 其 孩子 节点 的 heap-order 属性 后 ， 节 点 c 可 能 违反 了 该 属性 。 因 
此 ， 我 们 必须 继续 向 下 交换 直到 没有 违反 heap-order 属性 的 情况 发 生 ( 见 图 9-3e 一 图 9-3h)。 
这 个 向 下 交换 的 过 程 被 称 作 堆 向 下 冒 泡 (dowm-heap bubbling)。 交 换 可 以 解决 违反 heap- 
order 属性 的 问题 或 者 导致 该 键 值 在 堆 中 下 移 一 层 。 在 最 坏 情况 下 ， 元 组 会 一 直下 移 到 堆 的 
最 底层 ( 见 图 9-3 )。 这 样 ， 在 最 坏 情 况 下 ， 在 执行 方法 remove min 中 交换 的 次 数 等 于 堆 了 
的 高 度 ， 即 根据 命题 9-2 可 知 ， 这 个 最 大 值 是 L log n]. 


93.3 ”基于 数组 的 完全 二 又 树 表示 


基于 数组 的 二 叉 树 表示 ( 8.3.2 节 ) 非常 适合 完全 二 又 树 7。 在 这 部 分 实现 中 我 们 还 使 用 
它 ，7 的 元 组 被 存储 在 基于 数组 的 列表 4 中 ， 因 此 ， 存 储 在 7 中 位 置 p 的 元 素 的 索引 等 于 层 
BR fp), f(p) dé p 的 孔 数 ， 其 定义 如 下 : 
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z] 9-3 ” 移 除 堆 中 键 值 最 小 的 元 组 : a) Alb) 删除 最 后 的 节点 ， 即 存储 在 跟 中 的 元 组 ; c) Ald) 通过 交换 恢 
复 局 部 的 heap-order 属性 ; e) 和 f) 另 一 次 交换 ; g) Mh) 最 后 一 次 交换 
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e 如 果 p 是 7 的 根 节点 ， 则 了 (p)= 0。 

e WR p 是 位 置 q 的 左 孩 子 , 则 f(p)= 2f(q)+ 1。 

e WR p RMA q WAT, MAp) = 2f(q) +2. 

通过 这 种 实现 ,7 的 元 组 有 落 在 [1 0, n— 1] 范围 内 相 邻 的 索引 ， 而 且 了 最 后 节点 的 总 
是 在 索引 n 一 1 WWE, HP n 是 7 的 元 组 数量 。 例 如 ， 图 9-1 基于 数组 表示 的 堆 结构 示 
意图 如 图 9-4 所 示 。 





1 2 3 4 6 7 8 9 10 — HH 12 
图 9-4 图 9-1 基于 数组 表示 的 堆 结构 示意 图 





用 基于 数组 表示 的 堆 来 实现 优先 级 队列 使 我 们 避免 了 基于 节点 树 结构 的 一 些 复杂 性 。 尤 
其 是 优先 级 队列 的 add 和 remove_min 操作 都 依靠 定位 大 小 为 n 的 堆 的 最 后 一 个 索引 位 置 。 
使 用 基于 数组 的 表示 ， 最 后 位 置 是 数组 中 下 标 为 n -1 的 位 置 。 通 过 链 结 构 实 现 定位 完全 二 
叉 树 的 最 后 位 置 需要 付出 更 多 的 代价 ( 见 练习 C-9.34 )。 

如 果 事 先 不 知道 优先 级 队列 的 大 小 ， 基 于 数组 表示 堆 的 使 用 就 会 引入 偶尔 动态 重新 设 
置 数组 大 小 的 需要 ， 就 像 Python 列表 一 样 。 这 样 一 个 基于 数组 表示 的 节点 数 为 n 的 完全 
二 叉 树 的 空间 使 用 复杂 度 为 O(n)， 而 且 增 加 和 删除 元 组 的 方法 的 时 间 边 界 也 需要 考虑 摊 销 
(amortized)( 见 5.3.1 节 )。 


9.3.4 Python 的 堆 实 现 


代码 段 9-4 和 代码 段 9-5 提供 了 一 个 基于 堆 的 优先 级 队列 的 Python 实现 。 我 们 使 用 基 
于 数组 的 表示 ， 保 存 了 元 组 组 合 表 示 的 Python 列表 。 虽 然 没 有 正式 使 用 二 又 树 ADT， 但 是 
代码 段 9-4 包含 了 非 公 有 效用 函数 ， 该 函数 能 够 计算 父 节点 或 男 一 个 孩子 节点 的 层次 编号 。 
这 样 就 可 以 使 用 父 节点 、 左 孩子 和 右 孩 子 等 树 相 关 术 语 来 描述 剩 下 的 算法 。 但是， 相关 变 
量 是 整数 索引 (不 是 “位 置 ” 对 象 )。 我 们 采用 递归 来 实现 _upheap 和 _downheap 中 的 重复 
调用 。 


代码 段 9-4 用 基于 数组 的 堆 实现 优先 级 队列 ( 后 接 代码 段 9-5 )， 是 代码 段 9-1 中 
PriorityQueueBase 类 的 扩展 


| class HeapPriorityQueue(PriorityQueueBase): # base class defines Item 
2  """A min-oriented priority queue implemented with a binary heap." "" 
3 di-——————— ——————— À—— nonpublic behaviors ------------------------------ 
4 def _parent(self, j): 

5 return (j—1) // 2 

6 


7 def _left(self, j): 
8 return 2*j + 1 


10 def _right(self, j): 
11 return 2*j 十 2 


13 def has left(self, j): 
14 return self. left(j) < len(self. data) # index beyond end of list? 


16 def has.right(self, j): 
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return self. right(j) < len(self. data) # index beyond end of list? 


def _swap(self, i, j): 
""" Swap the elements at indices i and j of array." "" 
self. data[i], self. data[j] = self. data[j], self. .data[i] 


def _upheap(self, j): 
parent = self. parent(]) 
if j > 0 and self. data[j] < self. data[parent]: 
self. swap(j, parent) 
self. upheap(parent) # recur at position of parent 


def _downheap(self, j): 
if self. has left(j): 
left = self. left(;) 
small_child = left 
if self._has_right(j): 
right = self._right(j) 
if self. data[right] < self._datalleft]: 
small. child = right 
if self. data[small child] < self. data[j]: 
self. swap(j, small. child) 
self. downheap(small. child) # recur at position of small child 


ES 


4 although right may be smaller 


代码 段 9-5 ”用 基于 数组 的 堆 实现 优先 级 队列 ( 接 代码 段 9-4 ) 


##- 一 一 -一 一- 一 -一 -一 一 一-- 一 - public behaviors --———----—----------—------ 
def . init... (self): 

""" Create a new empty Priority Queue." "" 

self. data = [ ] 


def __len (self): 
""" Return the number of items in the priority queue." "" 
return len(self. data) 


def add(self, key, value): 
""" Add a key-value pair to the priority queue." "" 
self. data.append(self. Item(key, value)) 
self. upheap(len(self. data) — 1) # upheap newly added position 


def min(self): 
""" Return but do not remove (k,v) tuple with minimum key. 


Raise Empty exception if empty. 
if self.is empty(): 

raise Empty('Priority queue is empty.') 
item = self. data[0] 


return (item. key, item. value) 


def remove. min(self): 
""" Remove and return (k,v) tuple with minimum key. 


Raise Empty exception if empty 


if self.is empty(): 
raise Empty('Priority queue is empty.') 


self. swap(0, len(self. data) — 1) # put minimum item at the end 
item — self. data.pop( ) # and remove it from the list; 
self. downheap(0) # then fix new root 


return (item. key, item._value) 
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9.3.5 ”基于 堆 的 优先 级 队列 的 分 析 
X 9-3 显示 了 基于 堆 实 现 的 优先 级 队列 ADT 各 方法 的 运行 时 间 ， 其 中 ,假设 两 个 键 的 
比较 能 够 在 时 间 复 杂 度 O(1) 内 完成 ， 而 且 堆 7 是 基于 数组 表示 的 树 或 基于 链表 表示 的 树 实 
现 的 。 
简 言 之 ， 每 个 优先 级 队列 ADT 方法 能 够 在 时 间 复 杂 度 OC) 或 O(log n) NASER, HP n 
是 执行 方法 时 堆 中 元 组 的 数量 。 这 些 方法 的 运行 时 间 的 分 析 是 基于 以 下 结论 得 出 的 : 
e 堆 T 有 nn 个 节点 ， 每 个 节点 存储 一 个 键 - 值 对 的 引用 。 
e HFE TEKZEN, MAH TRHA E O(log n) (命题 9-1 )。 
e 由 于 树 的 根部 包含 最 小 元 组 ， 因 此 min 操作 运行 的 时 间 复 杂 度 是 0(1)。 
e 如 add 和 remove_min 操作 中 所 需要 的 ， 定 位 堆 的 最 后 一 个 位 置 的 操作 ， 在 基于 数组 
表示 的 堆 上 完成 需要 的 时 间 复 杂 度 为 0(1)， 在 基于 链表 树 表示 的 堆 上 需要 以 O(logn) 
的 时 间 复 杂 度 完成 ( 见 练习 C-9.34 )。 
e 推 向 上 冒 泡 和 堆 向 下 冒 泡 执行 交换 的 次 数 在 最 坏 情 况 下 等 于 了 的 高 度 。 
表 9-3 利用 堆 实 现 的 优先 级 队列 PERE, n 表示 执行 一 个 操作 时 优先 级 队列 中 元 组 的 数量 ， 空 间 
需求 量 为 O(n)。 操 作 min 和 remove min 的 运行 时 间 在 基于 数组 表示 的 实现 中 是 摊 销 的 结果 ， 
因为 动态 数组 有 时 候 会 调整 大 小 ; 对 于 链表 树 结构 ， 运 行 时 间 的 边界 是 最 坏 情 况 下 的 结果 


操 作 运行 时 间 
len(P), P.is_empty() O(1) 
P.min() O(1) 
P.add() O(log n) 
P.remove min() O(log n) 


* 如 果 是 基于 数组 的 ， 则 为 摊 销 结果 


我 们 可 以 得 出 这 样 的 结论 : 无 论 堆 使 用 链表 结构 还 是 数组 结构 实现 ， 堆 数据 结构 都 是 优 
先 级 队列 ADT 非常 有 效 的 实现 方式 。 与 基于 未 排序 或 已 排序 列表 的 实现 不 同 ， 基 于 堆 的 实 
现在 插入 和 移 除 操作 中 均 能 快速 地 获得 运行 结果 。 


9.3.6 自 底 向 上 构建 堆 * 


如 果 以 一 个 初始 为 空 的 堆 开 始 ， 在 最 坏 情 况 下 ， 连 续 n 次 调用 add 操作 的 时 间 复 杂 度 为 
O(n log n)。 但 是 ， 如 果 所 有 存储 在 堆 中 的 键 - 值 对 都 事先 给 定 ， 比 如 在 堆 排 序 算法 的 第 一 阶段 ， 
可 以 选择 运行 的 时 间 复 杂 度 为 O(n) 的 自 下 而 上 的 方法 构建 堆 (但 是 ， 堆 排序 仍然 需要 O(n log n) 
的 时 间 复 杂 度 ， 因 为 在 第 二 阶段 我 们 仍然 是 重复 地 移 除 剩余 元 组 中 具有 最 小 键 值 的 一 个 )。 

在 这 一 节 ， 我 们 描述 了 自 底 向 上 地 构建 堆 ， 并 给 出 了 一 个 实现 方法 ， 基 于 堆 的 优先 队列 
的 构造 函数 可 以 使 用 这 个 实现 方法 来 构建 堆 。 

为 了 使 叙述 简单 ， 我 们 在 描述 这 种 自 底 向 上 的 堆 构 建 时 ,假设 键 的 数量 为 x， 并且 为 
整数 ，n = 2*'' 1。 也 就 是 说 ， 堆 是 一 个 每 层 都 满 的 完全 二 又 树 ， 所 以 堆 的 高 度 满足 h = 
log(n+1) 一 1。 以 韭 递归 的 方法 描述 ， 自 底 向 上 构建 堆 包含 以 下 hh+ 1 = log(n + 1) 个 步 又。 

1) 第 一 步 ( 见 图 9-5b)， 我 们 构建 (n+ 1)/2 个 基本 堆 ， 每 个 堆 中 仅 存 储 一 个 元 组 。 

2) 第 二 步 ( 见 图 9-5c 一 图 9-5d)， 我 们 通过 将 基本 堆 成 对 连接 起 来 并 增加 一 个 新 元 组 
来 构建 + 1)/4 个 堆 ， 这 种 堆 的 每 个 堆 中 存储 了 3 个 元 组 。 新 增 的 元 组 放 在 根部 ， 并 且 它 
很 有 可 能 不 得 不 与 堆 中 某 一 个 孩子 节点 存储 的 元 组 进行 交换 以 保持 heap-order 属性 。 
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3) 第 三 步 ( 见 图 9-5e 一 图 9-5f)， 我们 通过 成 对 连接 含 3 个 元 组 的 堆 (该 堆 在 上 一 步 中 
构建 )， 并且 增加 个 新 的 元 组 ， 从 而 构建 (n+ 1)/8 个 堆 ， 每 个 堆 存 储 7 个 元 组 。 新 增 的 元 组 
存储 在 根 节 点 ,但 是 它 可 能 通过 堆 向 下 冒 泡 算法 下 移 以 保持 堆 的 heap-order 属性 。 

i) Bi, 2 < i < h， 我们 通过 成 对 连接 存 有 (2“”' 一 1) 个 元 组 的 堆 (该 堆 是 在 前 一 步 
中 构建 的 )， 并 且 在 每 个 合并 的 堆 上 增加 一 个 新 的 元 组 来 构建 (n+ 1)/2 个 堆 ， 每 个 堆 存 储 
2 - 1 个 元 组 。 新 增 元 组 被 存储 在 根 节 点 上 ， 但 是 它 很 可 能 需要 通过 堆 向 下 冒 泡 算法 进行 下 
移 以 保持 堆 的 heap-order 属性 。 

h+1) 最 后 一 步 ( 见 图 9-5g 一 图 9-5h)， 我们 通过 连接 两 个 存储 了 (n - 1)/2 个 元 组 的 堆 
(该 堆 是 在 上 一 步 中 构建 的 )， 并 且 增 加 新 一 个 的 元 组 来 构建 最 终 的 堆 ， 该 堆 存 储 了 所 有 nn 个 
元 组 。 新 增 的 元 组 开始 存储 在 根 节点 ,但 是 它 可 能 需要 通过 堆 向 下 冒 泡 的 算法 下 移 以 保持 堆 
的 heap-order 属性 。 

h=3 时， 自 底 向 上 的 建 堆 过 程 如 图 9-5 所 示 。 
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图 9-5 4 15 个 元 组 的 自 底 向 上 构建 堆 : a) 和 b) 从 最 底层 构建 只 含 一 个 元 组 的 堆 开始 构建 ; c) 和 d) 
将 这 些 堆 合 并 成 含 3 个 元 组 的 堆 ， 然 后 e) 和 f) 构建 含 7 个 元 组 的 堆 ， 直 到 g) 和 f) 构建 最 
终 状 态 堆 的 构建 。 在 d)、f) Mh) 中 , 已 经 将 堆 向 下 冒 泡 的 路 径 着 重 显示 出 来 。 为 简单 起 见 ， 
我 们 仅 显 示 了 每 个 节点 的 键 值 ， 而 不 是 显示 整个 元 组 的 内 容 
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自 底 向 上 构建 堆 的 Python 实现 

当 给 定 了 “下 堆 ”( down-heap) 效用 函数 (utility function) 时 ， 实 现 自 底 向 上 构建 堆 是 
非常 容易 的 。 正 如 本 章 开 头 所 描述 的 那样 ， 相 等 大 小 的 两 个 堆 的 “合并 ”就 是 公共 位 置 疡 的 
两 棵 子 树 的 合并 ， 可 以 简单 地 通过 p 元 组 的 下 堆 来 完成 ， 正 如 键 值 14 在 图 9-5f 一 图 9-5g 中 
所 发 生 的 变化 。 

在 使 用 数组 来 表示 堆 时 ， 如 果 我 们 初始 化 时 将 n 个 元 组 以 任意 顺序 存储 在 数组 中 ， 就 能 
够 通过 一 个 单 层 循环 来 实现 自 底 向 上 的 堆 构 造 ， 该 循环 在 树 的 每 个 位 置 上 调用 _downheap， 
并 且 这 些 调用 是 有 序 进行 的 ， 从 最 底层 开始 并 在 树 的 根 节点 处 结束 。 事 实 上 ， 由 于 下 堆 被 调 
用 对 叶 节 点 无 影响 ， 因 此 这 些 循环 可 以 从 最 底层 的 非 叶 节点 开始 。 

在 代码 段 9-6 中 ,我 们 对 9.3.4 节 的 原始 类 HeapPriorityQueue 进行 了 加 强 ， 从 而 支持 
一 个 初始 化 集合 自 底 向 上 堆 构 造 。 我 们 介绍 了 一 个 非 公 有 的 方法 heapify， 它 在 每 个 非 叶 
位 置 上 调用 _downheap， 从 最 底层 开始 ， 直 到 树 的 根 节点 结束 。 我 们 已 经 重新 设计 了 该 类 
的 构造 函数 ， 以 使 其 能 接收 一 个 可 选 的 参数 ， 该 参数 可 以 是 任何 (k, v) 元 组 的 序列 。 我 们 
使 用 列表 理解 语法 (UL 1.9.2 节 ) 来 建造 一 个 由 给 定 内 容 的 组 合 元 组 构成 的 初始 化 列表 ， 而 
不 是 将 self.data 初始 化 为 一 个 空 列表 。 我 们 声明 了 一 个 空 序列 作为 参数 的 默认 值 ， 作 为 
HeapPriorityQueue() 默认 的 语法 ， 使 其 能 够 处 理 空 的 优先 级 队列 并 输出 结果 。 


代码 段 9-6 重 写 代码 段 9-4 和 代码 段 9-5 中 的 类 HeapPriorityQueue， 使 其 支 
持 对 给 定 的 元 组 序列 实现 线性 复杂 度 的 优先 级 队列 构建 


def __init__(self, contents-()): 
""" Create a new priority queue. 


By default, queue will be empty. If contents is given, it should be as an 
iterable sequence of (k,v) tuples specifying the initial contents. 


self. data = [ self. Item(k,v) for k,v in contents] — # empty by default 
if len(self. data) > 1: 
self. heapify() 
def _heapify(self): 
start — self. parent(len(self) — 1) # start at PARENT of last leaf 
for j in range(start, —1, —1): # going to and including the root  . 


self. downheap(j) 


自 底 向 上 堆 构 建 的 渐 近 分 析 

自 底 向 上 堆 构 建 比 向 一 个 初始 的 空 堆 中 逐个 插入 n 个 键 值 元 组 要 更 快 ， 而 且 是 渐 近 式 的 。 
直观 地 说 ， 我 们 是 在 树 的 每 个 位 置 上 进行 单个 的 下 堆 操 作 ， 而 不 是 单个 的 上 堆 操 作 。 由 于 与 
树 底部 更 近 的 节点 多 于 离 顶 部 近 的 ， 向 下 路 径 的 总 和 是 线性 变化 的 ， 正 如 下 面 的 命题 所 示 。 

命题 9-3 : 假设 两 个 键 值 可 以 在 O(1) 的 时 间 内 完成 比较 ， 则 使 用 nn 个 元 组 自 底 向 上 构 
建 堆 需要 的 时 间 复 杂 度 为 O(n)。 

证 明 : 构建 堆 的 主要 成 本 是 在 每 个 非 叶 节点 位 置 下 堆 的 构造 步骤 上 。 用 天 表示 堆 从 非 
叶 节 点 v 到 其 “中 序 后 继 ” 叶 节点 的 路 径 ， 也 就 是 说 ,该 路 径 是 从 vv 节点 开始 ， 沿 着 v 的 右 
孩子 ， 然 后 继续 沿 着 最 左 方向 下 直至 到 达 叶 节点 。 虽 然 z, 不 需要 一 定 是 从 v 节 点 向 下 冒 泡 
步骤 产生 的 路 径 ， 但 是 它 的 长 度 [|n] CHI zc, 的 边 的 个 数 ) 与 以 v 为 根 的 子 树 的 高 度 成 比例 ， 


因此 ， 这 也 是 节点 下 堆 操作 的 复杂 度 的 边界 。 我 们 用 路 径 大 小 的 总 和 和 不 | 来 限制 自 底 
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向 上 堆 构 造 算法 总 的 运行 时 间 。 直 观 地 ， 图 9-6 展示 了 “可 视 化 ”的 证 明 ， 用 标签 标记 非 叶 
节点 v 的 路 径 ,中 所 包含 的 每 条 边 。 

我 们 声明 对 于 所 有 非 叶 节点 v 的 路 
径 x, 是 不 相交 的 ， 因 此 路 径 长 度 的 和 受 
到 树 的 总 边 数 的 限制 ， 即 为 O(n)。 为 了 S 
展示 这 一 结论 ， 我 们 考虑 定义 的 “向 右 学 Gy 
2]" (right-leaning) 边 和 “向 左 学 习 ” ( left- / 
leaning) 3] (这 些 边 从 父 节点 到 右 孩 子 和 
左 孩 子 )。 一 个 特别 的 向 右 学 习 边 e 只 能 moe 自 底 向 上 堆 构 建 运行 时 间 为 线性 的 “ 





是 节点 v 的 路 径 亚 的 一 部 分 ， 在 由 e 表 视 化 ”证 明 。 ee ey 
示 的 关系 中 ,该 节点 v 是 父 节 点 。 如 果 (如 果 有 的 话 ) 都 加 上 含有 节点 v 的 标签 


持续 地 向 左 向 下 直至 到 达 叶 节点 ， 那 么 

所 到 达 的 叶 节点 可 以 用 来 对 向 左 学 习 的 边 进行 划分 。 每 个 非 叶 节点 只 使 用 在 同 组 中 的 
向 左 学 习 边 将 生成 非 叶 节点 的 中 序 后 继 。 由 于 每 个 非 叶 节点 必须 有 不 同 的 中 序 后 继 ， 因 
此 没有 两 个 路 径 包 含 相同 的 向 左 学 习 边 。 因 此 ， 我 们 断定 自 底 向 上 构造 堆 的 时 间 复 杂 度 
为 O(n)。 E 


9.3.7 Python 的 heapq 模块 


Python 的 标准 分 布 包 含 一 个 heapq 模块 ， 该 模块 提供 对 基于 堆 的 优先 级 队列 的 支持 。 

该 模块 不 提供 任何 优先 级 队列 类 ， 而 是 提供 一 些 函 数 ， 这 些 函 数 把 标准 Python 列表 作为 

堆 进行 管理 。 它 的 模型 与 我 们 自己 的 基本 相同 : 基于 层次 编号 的 索引 ,将 n 个 元 素 存储 在 

L[0] ~ Lin- 1 的 单元 中 ,并且 最 小 元 素 存储 在 根 Z[0] 中 。 我 们 注意 到 heapq 并 不 是 单独 地 

管理 相关 的 值 ， 即 元 素 作 为 它们 自己 的 键 值 。 

Heapq 模块 支持 如 下 郴 数 ， 假 设 所 有 这 些 函 数 在 调用 之 前 ， 现 有 的 列表 工 已 经 满足 
heap-order 属性 : 
e heappush(L, e): 将 元 素 e 存 人 列表 二， 并 重新 调整 列表 以 满足 heap-order JS E; ek 

数 执行 的 时 间 复 杂 度 为 O(log n). 

heappop(L) : 取出 并 返回 列表 工 中 拥有 最 小 值 的 元 素 ， 并 且 重 新 调整 存储 以 满足 

heap-order 属性 。 该 函数 执行 的 时 间 复 杂 度 为 O(log n). 

heappushpop(L, e) : 将 元 素 e 存 人 列表 工 中 ， 同 时 取出 和 返回 最 小 的 元 组 。 该 函数 执 

行 的 时 间 复 杂 度 为 O(log n), 但 是 它 较 分 别 调用 push 和 pop 方法 的 效率 稍微 高 一 些 ， 

因为 列表 的 大 小 在 处 理 过 程 中 不 发 生变 化 。 如 果 最 新 被 插入 列表 的 元 素 值 是 最 小 的 

那么 该 函数 立刻 返回 ; 和 否则， 新 增 的 元 素 将 会 替换 在 根 节点 处 取出 的 元 素 ， 随 后 ， 郴 

数 会 执行 下 堆 操 作 。 

e heapreplace(L, e) : 与 heappushpop 方法 相 类 似 , 但 相当 于 在 插入 操作 前 执行 pop 操 
YE (换言之 ， 即 使 新 插入 的 元 素 是 最 小 值 也 不 能 被 返回 )。 该 函数 执行 的 时 间 复 杂 度 
为 O(log n), 但 是 它 比 分 别 调用 push 和 pop 方法 效率 更 高 。 

该 模块 还 支持 在 不 满足 heap-order 属性 的 序列 上 进行 操作 的 其 他 函数 。 

e heapify(L) : 改变 未 排序 的 列表 ， 使 其 满足 heap-order 属性 。 这 个 函数 使 用 自 底 向 上 
的 堆 构 造 算法 ， 时 间 复 杂 度 为 O(n)。 
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e nlargest(k, iterable) : 从 一 个 给 定 的 迭代 中 生成 含有 大 个 最 大 值 的 列表 。 执 行 该 函数 
的 时 间 复 杂 度 为 O(n klog n)， 这 里 使 用 n KEREKE ( 见 练习 C-9.42 )。 

e nsmallest(k, iterable) : 从 一 个 给 定 的 迭代 中 生成 含有 个 最 小 值 的 列表 。 该 函数 使 用 
与 nlargest 相同 的 技术 ， 其 时 间 复 杂 度 为 O(n + k log n)。 


9.4 使 用 优先 级 队列 排序 


在 定义 优先 级 队列 ADT 时 ， 我们 注意 到 任何 类 型 的 对 象 都 能 够 被 定义 为 键 , 但 是 任何 
一 对 键 之 间 必 须 是 可 比较 的 ， 这 样 这 个 键 集 自然 是 可 排序 的 。 在 Python H, RIAH “<” 
操作 符 来 定义 这 样 的 序列 ， 在 定义 过 程 中 ， 必 须 满足 属性 : 

e 漫 反 射 特性 : k Xk. 

e 传递 属性 : Uk kh. FFA k< k, W) Ki < k 

这 种 关系 被 正式 地 定义 为 严格 弱 序 (strict weak order)， 因 为 它 允 许 各 个 键 值 是 相等 的 ， 
但 更 广泛 的 等 价 类 是 完全 有 序 的 ， 因 为 它们 可 以 根据 传递 属性 排列 成 唯一 的 从 最 小 值 到 最 大 
值 的 序列 。 

作为 优先 级 队列 的 第 一 个 应 用 ， 我 们 展示 了 它们 如 何 被 用 在 对 一 个 可 比较 元 素 集 合 C 
的 排序 上 。 也 就 是 说 ,我 们 能 够 生成 集合 C 中 元 素 的 一 个 递增 排序 的 序列 (或 者 如 果 存 在 重 
复数 据 ， 则 至 少 是 非 递 减 的 顺序 )。 这 个 算法 非常 简单 一 一 我 们 将 所 有 元 素 插 入 一 个 最 初 为 
空 的 优先 级 队列 中 ， 然 后 重复 调用 remove_min， 从 而 以 非 递 减 的 顺序 获取 所 有 元 素 。 

我 们 在 代码 段 9-7 中 给 定 了 这 种 算法 的 一 个 实现 ， 其 中 假定 C 是 一 个 位 置 列表 CUL 7.4 
节 )。 调 用 方法 Padd 时 ,我们 把 集合 的 原始 元 素 element 同时 作为 键 和 值 ， 即 P.add(element, 


element)。 


代码 段 9-7 函数 pq_sort 的 实现 ， 这 里 假设 已 经 有 了 一 个 合适 的 PriorityQueue 类 的 实现 。 注 意 输 入 
列表 C 的 每 个 元 素 都 充当 了 其 在 优先 级 队列 P HE 


1 def pq.sort(C): 

2 """ Sort a collection of elements stored in a positional list." " " 

3 n-len(C) 

4 P = PriorityQueue( ) 

5 for j in range(n): 

6 element = C.delete(C.first()) 

7 P.add(element, element) # use element as key and value 

8 for j in range(n): 

9 (k,v) = P.remove. min( ) 

( C.add. last(v) # store smallest remaining element in C 


如 果 对 以 上 代码 做 个 小 小 的 改动 : 将 元 素 按照 一 定 的 规则 排序 而 不 是 保留 其 默认 的 顺 
序 ， 这 样 便 可 以 使 该 函数 更 为 通用 。 例 如 ， 当 处 理 字 符 串 时 ,“<” 操 作 符 定义 一 个 字典 序 
列 ， 这 是 将 一 个 字母 序 扩展 到 Unicode 上 。 比 如 ， 我 们 定义 '2'<'4'， 因 为 是 根据 每 个 字符 串 
的 第 一 个 字母 的 顺序 定义 的 ， 就 像 'apple' < 'banana' 一 样 。 假 设 有 一 个 应 用 ， 在 应 用 中 我 们 
有 一 个 众所周知 的 代表 整数 值 (如 '12) 的 字符 串 列表 ， 那 么 我 们 的 目标 就 是 根据 这 些 对 应 
的 整数 值 给 这 些 字符 串 排 序 。 

Python 中 提供 了 为 一 个 排序 算法 自 定义 顺序 的 标准 方法 ， 作 为 排序 函数 的 一 个 可 选 参 
数 ， 一 个 对 象 自身 就 是 为 一 个 给 定 的 元 素 计算 键 的 单 参数 孔 数 ( 见 1.5 和 1.10 节 ， 在 内 置 
max 函数 的 上 下 文中 有 关于 该 方法 的 讨论 )。 比 如 ,在 使 用 一 个 数字) 字符 串 列表 时 ， 我 
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们 很 可 能 希望 将 int (s). 的 数值 作为 列表 中 字符 串 s 的 键 。 在 这 种 情况 下 ，int 类 的 构造 函数 
可 以 作为 计算 键 的 单 参数 函数 。 在 这 种 方式 下 ， 字 符 串 4' 将 排 在 字符 串 '12' 的 前 面 ， 因 为 
它们 的 键 的 关系 是 int(4) < int('12')。 我 们 把 用 这 种 的 方法 为 pq_sort 函数 提供 可 选 键 参数 的 
问题 留 作 一 个 练习 ( 见 练习 C-9.46 )。 


9.4.1 选择 排序 和 插入 排序 


对 于 任意 给 定 的 优先 级 队列 类 的 有 效 实现 ，pq_sort 函数 都 能 正确 地 处 理 。 但 是 ， 排 序 
算法 的 运行 时 间 复 杂 度 取决 于 给 定 的 优先 级 队列 类 的 add 方法 和 remove_min 方法 的 时 间 复 
杂 度 。 接 下 来 我 们 讨论 一 种 优先 级 队列 的 实现 ， 该 实现 实际 上 使 得 pq_sort 计算 成 为 经 典 的 
排序 算法 之 一 。 

选择 排序 

如 果 用 一 个 未 排序 的 列表 实现 PP， 那 么 由 于 每 增加 一 个 元 素 都 能 在 0(1) 的 时 间 复 杂 度 
内 完成 ， 所 以 在 pq_sort 的 第 一 阶段 所 花费 的 时 间 复 杂 度 为 O(n)。 在 第 二 阶段 ， 每 次 
remove min 操作 的 时 间 复 杂 度 与 P 的 大 小 
成 正比 。 因 此 ， 计 算 的 瓶颈 是 在 第 二 阶段 RO 
重复 地 选择 最 小 元 素 。 由 于 这 个 原因 ， 这 
个 算法 被 命名 为 选择 排序 ( 见 图 9-7 ) 。 e (253) idi 

如 上 面 提 到 的 ， 算 法 的 瓶颈 就 是 我 们 l ; pe 
在 第 二 阶段 重复 地 从 优先 级 队列 P 中 移 除 48,5, 
拥有 最 小 键 值 的 元 组 。P 的 大 小 开始 为 n， 
随 着 每 次 调用 remove_min， 持 续 递 减 ， 直 
到 变 为 0。 所 以 ， 第 一 次 操作 的 时 间 复 杂 
度 为 O(n)， 第 二 次 操作 的 时 间 复 杂 度 为 ”图 9.7 在 集合 C= (7, 4, 8, 2, 5, 3) 上 执行 选择 排序 
O(n- 1)， 以 此 类 推 。 因 此 ， 第 二 阶段 所 需 
要 的 总 时 间 为 : 








O(n*(n-1*-4241) = OCD) 
i=l 


由 命题 3-3 可 知 ，2i=n(mt1)/2 这 一 结论 。 因 此 ,第 二 阶段 的 时 间 复杂 度 为 OG), BL 
整个 选择 排序 算法 的 时 间 复 杂 度 为 O(n”)。 

插入 排序 

如 果 用 一 个 排序 列表 实现 优先 级 队 
列 ， 由 于 此 时 每 次 在 PP 上 执行 remove_ 
min 操作 所 花费 的 时 间 复 杂 度 为 0(1)， 因 
此 我 们 可 以 将 第 二 阶段 的 时 间 复 杂 度 降低 47, 
到 O(n). 不 幸 的 是 ， 第 一 阶段 将 会 变 成 整 (2.3.4.5.7.8) 











个 算法 的 瓶颈 ， 因 为 在 最 坏 情况 下 ， 每 次 阶段 2 e rr 
add 操作 的 时 间 复 杂 度 与 当前 己 的 大 小 成 n 
正比 。 这 种 排序 算法 被 称 作 插 入 排序 CUL (2,3,4,5,7,8) 0 


图 9-8 )。 实 际 上 ， 在 优先 级 队列 中 增加 一 ”图 9-8 在 集合 C=( 7, 4, 8, 2, 5, 3 ) 上 执行 插入 排序 
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个 元 素 的 实现 与 之 前 7.5 节 给 出 的 插入 算法 的 步骤 几乎 完全 相同 。 
搬入 排序 算法 的 第 一 阶段 在 最 坏 情况 下 的 运行 时 间 为 : 


O (1+2+++-+(n-1)+n) = om 


ARE, HGR re 3-2, AERA LP oS — Br BERT [8] S 28 Ey O(n"), JF EA 
dfi A HE Pe SEE BS BT [n] ZR EL Om) (AGE, ANISEFXEPEHET, fü AGETTEBÓ BOLA 
时 间 复 杂 度 为 O(n)。 


9.4.2 SEER 


正如 我 们 之 前 所 看 到 的 ， 使 用 堆 实 现 的 优先 级 队列 比较 有 优势 ， 因 为 优先 级 队列 ADT 
中 的 所 有 方法 都 是 在 对 数 级 时 间或 更 短 时 间 内 完成 。 因 此 ， 这 种 实现 非常 适合 那些 所 有 优先 
级 队列 方法 都 追求 快速 的 运行 时 间 的 应 用 。 现 在 ， 让 我 们 再 次 考虑 pq sort 的 设计 ， 这 次 使 
用 基于 堆 的 优先 级 队列 的 实现 方式 。 

在 第 一 阶段 ， 由 于 第 i 次 add 操作 完成 后 堆 有 i 个 元 组 ， 所 以 第 i 次 add 操作 的 时 间 复 
杂 度 为 O(log 站。 因此 ， 这 一 阶段 整体 的 时 间 复 杂 度 为 O(n log n) (采用 9.3.6 节 所 描述 的 自 
底 向 上 堆 构 造 的 方法 ， 第 一 阶段 的 时 间 复 杂 度 能 够 被 提升 到 O(n))。 

在 pq_sort 的 第 二 阶段 ， 由 于 在 第 j 次 remove min 操作 执行 时 堆 中 有 (n 一 j+1) 个 元 
组 ， 因 此 第 j 次 remove min 操作 的 时 间 复 杂 度 为 O(log(n —j ^ 1))。 将 所 有 这 些 remove min 
操作 累加 起 来 ， 这 一 阶段 的 时 间 复 杂 度 为 O(n log n)。 所 以 ， 当 使 用 堆 来 实现 优先 级 队列 时 ， 
整个 优先 级 队列 排序 算法 的 时 间 复 杂 度 为 O(n log n)。 这 个 排序 算法 就 称 为 堆 排序 ， 以 下 命 
题 总 结 了 它 的 性 能 。 

命题 9-4 : 假设 集合 C 的 任意 两 个 元 素 能 在 O(1) 时 间 内 完成 比较 ， 则 堆 排序 算法 能 在 
O(nlog n) 时 间 内 完成 含有 nn 个 元 素 的 集合 C 的 排序 。 

显然 ， 堆 排序 的 O(nlog n) 时 间 复 杂 度 比 起 选择 排序 和 插入 排序 ( 见 9.4.1 节 ) 的 O(n’) 
时 间 复 杂 度 性 能 是 相当 好 的 。 

实现 原 地 堆 排 序 

如 果 集 合 C 的 排序 由 基于 数组 序列 的 方法 实现 ，Python 列表 就 是 一 个 典型 的 代表 ， 我 
们 可 以 通过 引入 一 个 常量 因子 以 列表 自身 的 一 部 分 存储 堆 的 方法 来 加 速 堆 排序 并 减 小 空间 需 
求 ， 以 避免 使 用 辅助 堆 数据 结构 。 这 可 以 通过 如 下 所 示 的 算法 修改 进行 实现 : 

1) 通过 使 每 个 位 置 的 键 值 不 小 于 其 孩子 节点 的 键 值 ， 我 们 重新 定义 堆 的 操作 ， 使 其 成 
为 面向 最 大 值 的 堆 ( maximum-oriented heap)。 这 可 以 通过 重新 编码 算法 或 者 调整 键 的 概念 
为 相反 方向 的 来 实现 。 在 算法 执行 过 程 中 的 任意 时 间 点 ， 我 们 始终 使 用 C 的 左 半 部 分 ( 即 
0 到 一 个 确定 的 索引 i 一 1) 来 存储 堆 中 的 元 组 ， 并 且 使 用 C 的 右 半 部 分 ( 即 索 引 i~~n 一 1) 


来 存储 序列 的 元 素 。 也 就 是 说 ，C 的 前 i 个 元 素 (在 索引 0, … , i — 1 Ab) 提供 了 堆 的 数组 列 
表 表 示 。 
2) 在 算法 的 第 一 阶段 ， 我 们 从 一 个 空 堆 开 始 ， 并 从 左 向 右 移动 堆 与 序列 之 间 的 边界 ， 
一 次 一 步 。 TERI, 这 里 j= 1, un, 我 们 通过 在 索引 i — 1 处 追加 元 素来 对 堆 进行 扩展 。 
3) 在 算法 的 第 二 阶段 ,我们 从 一 个 空 的 序列 开始 ， 并 从 右 到 左 移动 堆 与 序列 之 间 的 边 
R, 一 次 一 步 。 在 第 i 步 ， 这 里 i= 1, …, n. 我 们 将 最 大 值 元 素 从 堆 中 移 除 并 将 其 存储 到 索 


引 为 n 一 i 的 位 置 上 。 
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一 般 来 说 ， 如 果 一 个 排序 算法 除了 存储 对 象 已 排序 的 序列 ， 仅 额外 使 用 一 小 部 分 内 存 ， 
我 们 就 说 该 算法 为 原 地 Cin-place) 算法 。 上 述 调 整 过 的 堆 排 序 算法 就 是 原 地 算法 。 相 对 于 将 
元 素 移 出 序列 再 重新 移 和 人， 我 们 简单 地 对 序列 进行 了 重新 组 织 。 我 们 在 图 9-9 中 对 原 地 堆 排 
序 第 二 阶段 的 处 理 过 程 进 行 了 说 明 。 





图 9-9 ” 原 地 堆 排 序 的 第 二 阶段 。 序 列 中 堆 的 部 分 做 了 突出 表示 。 在 每 个 表示 序列 的 二 又 树 图 表示 中 ， 
最 新 的 向 下 堆 冒 泡 形成 的 路 径 做 了 突出 表示 


9.5 适应 性 优先 级 队列 
9.1.2 节 给 出 的 优先 级 队列 ADT 的 方法 对 于 大 多 数 优先 级 队列 的 基本 应 用 (比如 排序 ) 
来 说 已 经 很 完善 了 。 但 是 ， 有 些 场景 还 需要 一 些 附加 方法 ， 比 如 下 面 所 示 的 涉及 航班 候补 等 
待 (standby) 乘客 的 应 用 场景 。 
e 持 有 消极 态度 的 待机 乘客 可 能 会 因为 对 等 待 感到 疲倦 而 决定 在 登 机 时 间 到 来 之 前 离 
开 ， 并 请 求 从 等 待 列 表 中 移 除 。 因 此 ， 我 们 将 与 该 乘客 相关 的 元 组 从 优先 级 队列 中 
移 除 。 由 于 要 离开 的 乘客 不 需要 最 高 优先 级 ， 因 此 remove min 操作 不 能 完成 此 任 
务 。 所 以 ,我们 需要 一 个 新 的 操作 remove， 用 来 删除 优先 级 队列 中 的 任意 一 个 元 组 。 
e 男 一 个 待机 乘客 拿 出 她 的 常 飞 乘客 金 卡 并 出 示 给 售票 代理 ， 因 此 她 的 优先 级 将 被 相 
应 地 更 改 。 为 了 完成 这 个 优先 级 的 变更 ,我 们 需要 一 个 新 的 操作 update， 使 我 们 能 
用 一 个 新 的 键 去 蔡 换 元 组 现 有 的 键 。 
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在 实现 14.6.2 节 和 14.7.1 节 的 特定 图 算法 时 ， 我 们 将 看 到 可 适应 性 优先 级 队列 的 另 一 
种 应 用 。 

在 本 节 中 ， 我们 构建 了 一 个 可 适应 性 优先 级 队列 ADT， 并 展示 了 如 何 将 这 个 抽象 概念 
作为 基于 堆 的 优先 级 队列 的 扩展 来 实现 。 


9.5.1 定位 器 


为 了 有 效 地 实现 方法 update 和 remove， 我 们 需要 一 种 在 优先 级 队列 中 找到 用 户 元 组 的 
机 制 ， 该 机 制 可 以 避免 在 整个 元 组 集合 进行 线性 搜索 。 为 了 实现 这 一 目标 ， 当 一 个 新 的 元 素 
追加 到 优先 级 队列 中 时 ， 我 们 返回 一 个 特殊 的 对 象 给 调用 者 ， 该 对 象 称 为 定位 器 (locator)。 
对 于 一 个 优先 级 队列 已 ， 当 执行 update 或 者 remove 方法 时 ， 我 们 需要 用 户 提 供 一 个 合适 的 
定位 器 作为 参数 ， 详 情 如 下 : 

e P.update(loc, k, v): 用 定位 器 loc 代替 键 和 值 作为 元 组 的 标识 。 

e Premove(loc): 从 优先 级 队列 中 删除 以 loc 标识 的 特定 元 组 ， 并 返回 它 的 (key, value) Xf. 

定位 抽象 类 似 于 我 们 从 7.4 节 开 始 使 用 的 位 置 列表 ADT 中 使 用 的 位 置 抽象 和 第 8 章 介 
绍 的 树 的 ADT 中 使 用 的 位 置 抽象 。 但 是 ， 定 位 器 和 位 置 不 同 ， 因 为 优先 级 队列 的 定位 器 并 
不 代表 结构 中 一 个 元 素 的 具体 位 置 。 在 优先 级 队列 中 ， 一 些 看 似 与 元 素 没 有 直接 关系 的 操 
作 , 一 旦 执行 ， 该 元 素 可 能 在 数据 结构 中 被 重新 定位 。 只 要 一 个 元 组 项 一 直 在 队列 中 的 某 个 
地 方 ， 这 个 元 组 的 定位 器 将 一 直 有 效 。 


9.5.2 适应 性 优先 级 队列 的 实现 


在 本 节 中 ， 我 们 提供 一 个 可 适应 性 优先 级 队列 的 Python 实现 ， 将 它 作为 9.3.4 节 所 讨论 
的 HeapPriorityQueue 类 的 扩展 。 为 了 实现 Locator 类 ， 我 们 将 扩展 现 有 _Item 的 组 成 来 增加 
一 个 额外 的 字段 ， 该 字段 指定 在 基于 数组 表示 的 堆 中 的 元 素 的 当前 索引 ， 如 图 9-10 所 示 。 


token 





图 9-10 用 一 个 定位 器 序列 表示 堆 。 数 组 中 每 个 元 组 的 索引 对 应 每 个 定位 器 实例 中 的 第 三 个 元 素 。 假 
定 标 识 符 token 是 用 户 域 中 的 一 个 定位 器 的 引用 (reference) 


该 列表 是 一 个 指向 定位 器 实例 的 序列 ， 每 个 定位 器 都 存储 一 个 key, value 和 列表 内 元 
组 的 当前 索引 。 用 户 会 获得 每 个 插入 的 元 素 的 定位 器 实例 的 引用 ， 如 图 9-10 中 的 token 标 
识 所 示 。 

在 堆 上 执行 优先 级 队列 操作 时 ， 元 组 在 结构 中 被 重新 定位 ， 我 们 重新 设置 列表 中 各 定位 
器 实例 的 位 置 ， 并 更 新 每 个 定位 器 的 第 三 个 字段 以 反映 该 定位 器 在 列表 中 的 新 索引 。 图 9-11 
展示 了 上 述 的 堆 在 调用 remove min() 方法 后 状态 的 一 个 例子 。 堆 操作 使 得 最 小 元 组 (4, C) 
被 删除 ， 并 使 元 组 (16, X) 暂时 从 最 后 一 个 位 置 移 到 根 位 置 ， 这 之 后 是 向 下 冒 泡 的 处 理 阶 
段 。 在 下 堆 阶段 ， 元 素 (16, X) 与 它 在 列表 索引 为 1 的 位 置 的 左 孩 子 (5, A) 做 了 交换 ， 
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然后 又 与 它 在 列表 的 索引 值 为 4 的 右 孩 子 元 组 (9, F) 交换 。 在 最 后 的 配置 中 ， 所 有 受 影 响 
的 元 组 的 定位 器 实例 都 已 经 被 修改 了 ， 以 反映 它们 的 新 位 置 。 


token 





图 9-11 在 图 9-10 中 所 描述 的 堆 上 调用 remove min() 的 结果 。 在 初始 配置 中 ， 标 识 tocken 继续 指向 
同一 个 定位 器 实例 ， 但 是 当 定位 器 增加 了 第 三 个 域 时 ， 它 在 列表 中 的 位 置 会 发 生变 化 


强调 定位 器 实例 没有 改变 元 组 标识 非常 重要 。 如 图 9-10 和 图 9-11 所 示 ， 用 户 token 的 
指针 将 继续 指向 相同 的 实例 。 我 们 只 是 简单 地 改变 了 实例 的 第 三 个 域 ， 并 改变 了 列表 序列 中 
引用 该 实例 的 索引 的 位 置 。 

通过 这 种 新 的 表示 ， 对 可 适应 性 优先 级 队列 ADT 提供 额外 的 支持 更 加 直接 。 当 一 个 定 
位 器 实例 被 当 作 参数 传 给 方法 update 或 remove 时 ， 我 们 可 以 借助 该 结构 的 第 三 个 域 来 指明 
该 元 素 在 堆 中 的 位 置 。 根 据 前 面 的 讨论 我 们 知道 ， 一 个 键 的 update 操作 仅 需 要 简单 的 一 次 
堆 向 上 冒 泡 或 堆 向 下 冒 泡 来 重新 满足 heap-order 属性 (完全 二 叉 树 属性 保持 不 变 )。 为 了 实 
现 移 除 任 意 一 个 元 素 的 操作 ， 我 们 把 在 最 后 位 置 的 元 素 移 到 腾空 的 位 置 ， 并 再 次 执行 适当 的 
冒 泡 操作 来 满足 heap-order 属性 。 

Python 实现 

代码 段 9-8 和 代码 段 9-9 展示 了 可 适应 性 优先 级 队列 的 Python 实现 ， 它 是 9.3.4 15 
HeapPriorityQueue 类 的 子 类 。 我 们 在 原始 类 上 做 的 修改 非常 小 。 我 们 定义 了 一 个 公有 的 
Locator 类 ， 该 类 继承 非 公 有 的 Item 类 并 通过 额外 的 _index 域 增强 它 。 之 所 以 将 它 定义 为 
公有 类 ， 是 因为 我 们 要 同时 用 locators 作为 返回 值 和 参数 ， 但 是 ， 用 户 定位 器 类 的 公有 接口 
不 包括 任何 其 他 功能 。 

为 了 在 堆 操作 的 过 程 中 更 新 定位 器 ， 我 们 借助 一 个 特定 的 设计 决策 ， 即 在 原始 类 在 所 有 
数据 移动 中 都 使 用 一 个 非 公 有 的 方法 _swap。 在 两 个 互 换 的 定位 器 实例 中 ,我们 重 写 该 实用 
程序 来 执行 更 新 定位 器 中 所 存储 的 索引 的 附加 步骤 。 

我 们 提供 一 个 新 的 _bubble 程序 ， 该 程序 负责 一 个 在 堆 中 任意 位 置 的 键 改 变 时 恢复 
heap-oder 属性 ， 不 管 这 个 改变 是 由 于 键 的 更 新 ， 还 是 因为 从 树 的 最 后 一 个 位 置 移 除 元 素 及 
其 对 应 的 元 组 。_bubble 程序 根据 给 定 的 位 置 是 否 有 一 个 更 小 的 父 节点 来 决定 是 否 进 行 堆 回 
上 冒 泡 或 者 堆 向 下 冒 泡 (如 果 一 个 更 新 的 键 恰巧 保存 了 有 效 的 当前 位 置 ， 我 们 在 技术 上 调用 
_downheap 但 没有 交换 结果 )。 

代码 段 9-9 给 出 了 公有 的 方法 。 现 有 的 add 方法 被 覆盖 ， 两 者 都 是 使 用 一 个 Locator 实 
例 (而 不 是 存储 新 元 素 的 Item 实例 )， 并 将 定位 器 返回 给 调用 者 。 该 方法 的 其 余部 分 与 原 
有 的 方法 相 类 似 ， 即 通过 swap 新 版 本 的 使 用 来 制定 管理 定位 器 的 索引 。 由 于 对 于 可 适应 性 
优先 级 队列 在 行为 上 唯一 需要 的 改变 已 经 在 重 载 _swap 方法 中 提供 ， 因 此 没有 必要 再 重 写 
remove_min 方法 。 


update 和 remove 方法 为 可 适应 性 优先 级 队列 提供 了 核心 的 新 功能 。 我 们 对 一 个 被 调用 
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方 发 送 的 定位 器 的 有 效 性 进行 鲁 棒 性 检查 〈 为 了 节省 篇 幅 ， 我 们 给 出 的 代码 不 做 确保 参数 确 
实 是 一 个 Locator 实例 的 初步 类 型 检查 )。 为 了 确保 定位 器 与 给 定 优先 级 队列 中 的 当前 元 素 
相关 联 ， 我 们 检查 被 封装 在 定位 器 对 象 中 的 索引 ， 然 后 验证 在 该 索引 处 的 列表 的 元 组 正 是 这 
个 定位 器 。 

综 上 所 述 ， 可 适应 性 优先 级 队列 提供 了 与 非 可 适应 性 版 本 相同 的 渐 近 效率 和 空间 使 用 ， 
并 且 为 新 的 基于 定位 器 的 update 和 remove 方法 提供 了 对 数 级 的 性 能 。 表 9-4 给 出 了 性 能 总 结 。 


代码 段 9-8 ”一 个 可 适应 性 优先 级 队列 的 实现 ( 后 接 代码 段 9-9 )。 这 是 代码 段 9-4 
和 代码 段 9-5 中 HeapPriorityQueue 的 扩展 
class AdaptableHeapPriorityQueue(HeapPriorityQueue): 


l 

2  """A locator-based priority queue implemented with a binary heap." "" 

3 

4 dE —_-------------------------- nested Locator class -一 -- 一 一 一 -一 一 一 一 一 一 
5 class Locator(HeapPriorityQueue. Item): 

6 """ Token for locating an entry of the priority queue." "" 

7 --Slots-- = ' index' # add index as additional field 


9 def . init. (self, k, v, j): 


10 super( ). .. init. (k,v) 

11 self. index = j 

12 z 

13 ff ro nnn nnn nonpublic behaviors 一 一 一 一 一 一 一 一 一 一 一 


14 # override swap to record new indices 
15 def _swap(self, i, j): 


16 super( ).-swap(i,j) # perform the swap 

17 self. data[i]. index = i # reset locator index (post-swap) 
18 self. data[j]. index = j # reset locator index (post-swap) 
19 

20 def bubble(self, j): 

21 if j > 0 and self. data[j] < self. data[self. parent(;)]: 

22 self. upheap(j) 

23 else: 

24 self. downheap(j) 


代码 段 9-9 ”一 个 可 适应 性 优先 级 队列 的 实现 ( 接 代码 段 9-8 ) 


25 def add(self, key, value): 

26 """ Add a key-value pair." "" 

27 token = self.Locator(key, value, len(self. data)) # initiaize locator index 
28 self. data.append(token) 

29 self. upheap(len(self. data) — 1) 


30 return token 

31 

32 def update(self, loc, newkey, newval): 

33 """ Update the key and value for the entry identified by Locator loc." "" 
34 j = loc. index 

35 if not (0 <= j < len(self) and self. data[j] is loc): 

36 raise ValueError(' Invalid locator') 

37 loc. key = newkey 

38 loc..value — newval 

39 self. bubble(j) 

40 : 

41 def remove(self, loc): 

42 """ Remove and return the (k,v) pair identified by Locator loc." "" 


43 j = loc. index 
44 if not (0 <= j < len(self) and self. data[j] is loc): 
45 raise ValueError('Invalid locator') 
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if j == len(self) — 1: # item at last position 
self. data.pop( ) # just remove it 
else: 
self. .swap(j, len(self)—1) # swap item to the last position 
self. data.pop( ) # remove it from the list 
self. bubble(j) # fix item displaced by the swap 


return (loc. key, loc. value) 


表 9-4 一 个 用 基于 数组 堆 表 示 实 现 的 大 小 为 n 的 可 适应 性 优先 级 队列 忆 的 各 
方法 运行 时 间 表 。 空 间 需 求 量 是 O(n) 


B® fF 运行 时 间 
len(P), Pis empty(), P.min() O(1) 
P.add(k, v) O(log n)* 
P.update(loc, k, v) O(log n) 
P.remove(loc) O(log n)* 
P.remove_min() O(log n)* 


* 动态 数组 摊 销 


9.6 
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R-9.10 
R-9.11 


练习 


www.wiley.com/college/goodrich 以 获得 练习 帮助 。 


使 用 remove min 操作 从 含有 个 元 组 的 堆 中 删除 第 |log n | 最 小 元 组 需要 花费 多 长 时 间 ? 
假设 使 用 等 于 先 序 排序 的 键 值 来 标识 二 又 树 7 的 每 个 位 置 p， 在 什么 情况 下 7 是 堆 ? 

在 下 列 优先 级 队列 AD, T 方 法 中 ， 每 次 调用 remove min 将 返回 什么 ? 这 些 函 数 是 : add(5, A), 
add(4, B), add(7, F), add(1, D), remove min()、 add(3, J), add(6, L), remove min()、 remove - 
min(), add(8, G), remove min(), add(2, H), remove min() fll remove min(). 

某 机 场 正 在 开发 一 个 空中 交通 管制 模拟 系统 ， 该 系统 用 于 处 理 诸 如 飞机 着 陆 和 起 飞 等 事件 ， 每 
个 事件 有 一 个 标记 事件 什么 时 候 发 生 的 时 间 玲 。 模 拟 程序 需要 能 够 有 效 地 处 理 如 下 两 个 基本 
操作 : 

e 插入 一 个 带 有 给 定时 间 蕉 的 事件 ( 即 增加 一 个 未 来 的 事件 )。 

e 取出 拥有 最 小 时 间 戳 的 事件 〈 即 确定 下 一 个 处 理 的 事件 )。 

哪 种 数据 结构 适合 处 理 上 述 操作 ? 为 什么 ? 

如 表 9-2 所 示 ，UnsoredPriorityQueue 类 的 方法 min 的 时 间 复 杂 度 为 O(n)。 试 简单 修改 该 类 ， 
使 min 的 时 间 复 杂 度 变 为 0(1)。 请 解释 对 于 类 的 其 他 方法 需要 做 哪些 必要 的 改动 。 

能 否 通过 调整 上 一 问题 的 解决 方案 ， 使 UnsoredPriorityQueue 类 中 的 remove min 方法 时 间 复 
杂 度 也 为 0(1) ? 简单 描述 如 何 调整 。 

试 描述 在 输入 序列 (22, 15, 36, 44, 10, 3, 9, 13, 29, 25) 上 执行 选择 排序 算法 的 过 程 。 
试 说 明 在 上 一 问题 中 的 输入 序列 上 执行 插入 排序 算法 的 过 程 。 

请 给 出 一 个 会 出 现 插 入 排序 最 坏 情况 的 含 n 个 元 组 的 序列 的 例子 ， 并 证 明 在 这 样 的 序列 上 执行 
插入 排序 的 时 间 复 杂 度 为 (m^). 

堆 中 哪个 位 置 可 能 存储 着 第 三 小 的 键 ? 

堆 中 哪个 位 置 可 能 存储 最 大 键 ? 


R-9.17 


R-9.18 


R-9.19 


R-9.20 


R-9.21 


R-9.22 


R-9.23 


R-9.24 
R-9.25 


创新 
R-9.26 
R-9.27 


R-9.28 


R-9.29 


R-9.30 
R-9.31 
R-9.32 


考虑 这 样 的 情况 ， 用 户 有 数值 型 的 键 并 希望 有 一 个 面向 最 大 值 导 向 的 优先 级 队列 。 如 何 用 一 
个 标准 (面向 最 小 值 ) 的 优先 级 队列 实现 这 一 目的 ? 

试 说 明 在 输入 序列 (2, 5, 16, 4, 10, 23, 39, 18, 26, 15) 上 执行 原 地 堆 排 序 算法 的 过 程 。 
假设 7 为 完全 二 又 树 ,位 置 p 存储 以 了 (p) 为 关键 字 的 元 组 ,f(p) 是 p 的 层次 编号 ( 见 8.3.2 节 )。 
请 问 该 树 7 是 堆 吗 ? 为 什么 ? 

试 解释 为 什么 堆 向 下 冒 泡 算法 的 描述 中 不 考虑 位 置 p 有 右 孩 子 但 是 没有 左 孩 子 的 情况 。 

是 否 存 在 一 个 含有 7 个 元 组 且 键 值 唯一 的 堆 石 ， 这 个 堆 万 可 以 根据 先 序 遍 历 生 成 按键 值 递增 
或 递减 排序 的 序列 ?中 序 遍 历 呢 ? 后 序 遍 历 呢 ”如果 存 在 ， 请 给 出 一 个 例子 ; 如 果 不 存在 ， 
请 说 明 原 因 。 

假设 五 是 一 个 基于 数组 表示 的 完全 二 又 树 的 堆 ， 堆 中 存储 了 15 个 元 组 。 以 先 序 遍 历 五 的 数 
组 标识 序列 是 什么 ”中 序 遍 历 互 呢 ? Je ORI H We? 


证 明 在 一 个 堆 排序 中 的 和 > log i 的 复杂 度 是 Q(n log n). 


Bill 认为 一 个 堆 的 先 序 遍 历 将 以 非 降序 的 顺序 列 出 它 所 有 元 组 的 键 。 画 图 给 出 一 个 例子 ,证 
明 他 是 错误 的 。 

Hillary 认为 一 个 堆 的 后 序 遍历 将 以 非 升序 的 顺序 列 出 它 的 键 。 请 给 出 一 个 例子 ,证 明 她 是 错 
误 的 。 

试 给 出 从 图 9-1 的 堆 中 删除 元 组 (16, X) 算法 的 所 有 步骤， 假设 该 元 组 已 经 由 一 个 定位 器 
标识 。 

试 给 出 在 图 9-1 的 堆 中 ,用 18 替换 元 组 (5，A) 的 键 的 算法 的 所 有 步 又 ， 假 设 该 元 组 已 经 由 
定位 带 标识 。 

假设 一 个 堆 的 所 有 元 组 均 是 1 ~ 59 (不 重复 ) 的 奇数 ， 画 出 插入 键 值 为 32 的 元 组 时 所 引起 的 
自 底 向 上 到 根 节点 的 孩子 节点 (用 32 替换 这 个 孩子 节点 的 键 值 ) 的 堆 向 上 冒 泡 的 过 程 。 
描述 向 堆 中 插入 个 节点 的 序列 需要 在 O(n log n) 时 间 内 处 理 。 

写 出 对 图 9-9 中 的 堆 原 地 堆 排序 算法 的 所 有 步 又。 给 出 在 每 一 步 结束 时 数组 和 相关 的 堆 的 


状态 
Ao 


如 何 能 仅 使 用 一 个 优先 级 队列 和 一 个 额外 的 整 型 实例 变量 来 实现 堆栈 ADT ? 请 给 出 方法 。 

如 何 仅 使 用 一 个 优先 级 队列 和 一 个 额外 的 整 型 实例 变量 来 实现 FIFO 队列 ADT ? 请 给 出 
方法 。 

对 于 以 上 问题 ，Idle 教授 建议 使 用 如 下 解决 方案 : 在 一 个 元 组 被 插入 队列 的 时 候 ， 给 它 分 配 
一 个 等 于 当前 队列 长 度 的 键 值 。 这 样 的 策略 能 产生 FIFO 语义 吗 ? 证 明 这 个 方法 是 可 行 的 ,或 
者 提供 一 个 反例 来 否定 这 个 方法 。 

使 用 一 个 Python 列表 重新 实现 SortedPriorityQueue。 确 保 维持 remove_min 的 时 间 复 杂 度 为 
O(1). 

给 出 类 HeapPriorityQueue 中 upheap 方法 的 一 个 非 递 归 的 实现 。 

给 出 类 HeapPriorityQueue 中 downheap 方法 的 一 个 非 递归 的 实现 。 

假设 使 用 完全 二 又 树 7 的 链表 示 ， 并 使 用 一 个 额外 的 指针 指向 树 的 最 后 一 个 节点 。 假 定 n 是 
当前 树 的 节点 数 ， 则 在 add 和 remove min 操作 之 后 如 何在 O(log n) 时 间 复 杂 度 内 更 新 指向 最 
后 节点 的 指针 ? 就 像 在 图 9-12 所 描述 的 那样 。 请 确保 能 够 处 理 所 有 可 能 的 情况 。 
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图 9-12 


R-9.33 


R-9.34 


R-9.35 


R-9.36 
R-9.37 





b) 
在 add 或 remove 操作 之 后 ， 更 新 完全 二 又 树 的 最 后 一 个 节点 。 节 点 w 是 执行 add 操作 前 或 
remove 操作 后 树 中 的 最 后 一 个 节点 。 节 点 z 是 执行 add 操作 后 或 remove 操作 前 树 中 的 最 后 


MN 
— BLA 


当 使 用 基于 链表 的 树 表示 堆 时 ， 在 一 个 堆 了 的 插 和 过程 中 找到 最 后 一 个 节点 的 另 一 种 方法 是 
存储 ， 在 最 后 一 个 节点 和 了 中 的 每 个 叶 节点 ， 指 向 叶 节 点 的 引用 立即 指向 它 的 右边 节点 ( 包 
装 下 一 层 的 第 一 个 节点 为 最 右 叶 节点 )。 假 设 用 链表 结构 实现 7， 展 示 如 何在 每 个 优先 级 队列 
ADT 操作 中 以 0(1) 的 时 间 复 杂 度 维护 这 样 的 引用 。 

我 们 能 够 通过 二 进 制 字符 串 的 方法 表示 二 叉 树 从 根 节点 到 给 定 节 点 的 路 径 ， 在 这 个 路 径 中 0 
表示 “ 沿 左 孩子 走 ”, 1 表示 “ 沿 右 孩 子 走 ”。 比 如 ,在 图 9-12a 的 堆 中 从 根 节点 到 存储 (8, W) 
的 节点 的 路 径 表 示 为 “101”。 基 于 以 上 表示 ， 设 计 一 个 O(log n) 时 间 复 杂 度 的 算法 来 寻找 拥 
有 nn 个 节点 的 完全 二 又 树 的 最 后 一 个 节点 。 展 示 这 种 算法 怎样 能 被 用 在 通过 链表 结构 实现 且 
没有 指向 最 后 节点 指针 的 完全 二 又 树 中 。 

给 定 一 个 堆 了 和 一 个 键 上， 给 出 一 个 算法 来 计算 在 了 中 所 有 元 组 中 有 一 个 键 值 小 于 等 于 上 比 
如 ， 给 定 图 9-12a 中 的 堆 和 请 求 键 值 E= 7， 该 算法 应 该 给 出 拥有 键 值 2.4.5.6 和 7 的 元 组 (但 
不 需要 以 这 种 顺序 )。 该 算法 应 该 运行 在 与 返回 元 组 数量 成 正比 的 时 间 内 ， 并 且 不 应 该 改变 堆 。 
请 给 出 表 9-4 中 的 时 间 范 围 的 一 个 理由 。 

通过 显示 以 下 的 总 和 是 0(1)， 给 出 自 下 而 上 的 堆 结 构 的 另 一 种 分 析 ， 对 于 任何 正 整 数 h: 
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R-9.38 


R-9.39 


R-9.40 


R-9.41 


R-9.42 


R-9.43 


R-9.44 


R-9.45 


R-9.46 


R-9.47 


R-9.48 


R-9.49 


R-9.50 


R-9.51 


R-9.52 


项 目 
P-9.53 
P-9.54 


RIF 


假设 两 棵 二 叉 树 T, A T, 保持 元 组 满足 堆 序 列 属性 (但 是 不 需要 满足 完全 二 又 树 属 性 )。 描 
述 一 种 连接 TI 和 丈 为 二 又 树 了 的 方法 ， 它 的 节点 为 和 丈 中 的 节点 并 且 满 足 堆 顺序 属性 。 
你 的 算法 时 间 复 杂 度 应 该 为 OC, +h), hi Pl ha H T, RI Tr B ERE 

对 于 HeapPriorityQueue 类 实现 一 个 heappushpop 方法 ， 并 且 与 9.3.7 节 heapq 模块 的 描述 语 
义 相 似 。 

对 于 HeapPriorityQueue 类 实现 一 个 heapreplace 方法 ， 并 且 与 9.3.7 节 heapq 模块 的 描述 语义 
相似 。 

Tamarindo 航空 公司 想 给 他 们 最 高 log n 飞行 频率 的 常客 一 张 一 流 的 升级 优惠 券 ， 根 据 里 程 数 
Hg RA, n 为 航空 公司 常客 的 总 数量 。 他 们 现在 用 的 算法 时 间 复 杂 度 为 O(n log n)， 按 飞行 
里 程 数 量 给 常客 排序 ， 并 且 扫 描 被 排序 的 列表 ， 从 中 选 出 最 高 的 1ogn 个 常客 。 描 述 一 种 在 
O(n) 时 间 复 杂 度 内 识别 最 高 log n 常客 的 算法 。 

解释 使 用 面向 最 大 值 的 堆 ( maximum-oriented heap) 在 O(n + klog n) HJ [8] & 2 EE AMAA n 
个 元 组 的 无 序列 表 中 找 出 最 大 的 大 个 元 组 。 

解释 使 用 O(K) 的 辅助 空间 在 O(n log k) 时 间 复 杂 度 内 从 拥有 个 元 组 的 无 序列 表 中 找 出 最 大 
的 个 元 组 。 

给 定 PriorityQueue 类 ， 用 于 实现 面向 最 小 值 优先 级 队列 ADT， 并 提供 一 个 MaxPriorityQueue 
类 的 实现 ， 它 适合 用 方法 add. max 和 remove max 来 提供 面向 最 大 值 抽象 。 你 的 实现 不 应 该 
对 原始 类 PriorityQueue 和 可 能 用 到 的 键 值 类 型 做 任何 假设 。 

写 一 个 非 负 整数 的 一 个 关键 函数 ,该 函数 根据 每 个 整数 的 二 进 制 扩展 中 的 1 个 数 来 确定 顺序 。 
给 出 在 代码 段 9-7 部 分 pq sort 函数 的 可 替代 实现 ， 该 函数 接受 一 个 关键 字 函 数 作为 可 选 
参数 。 

对 于 一 个 数组 ， 描 述 一 个 选择 排序 算法 的 原 地 版 本 ， 并 且 该 数组 除了 本 身 只 是 用 O(1) 的 实例 
变量 空间 。 

在 数组 4 中 ， 假 设 排序 问题 的 输入 已 给 定 ， 试 描述 如 何 只 用 数组 4 和 至 多 一 个 常数 数量 的 附 
加 变量 来 实现 插入 排序 算法 。 

使 用 标准 的 面向 最 小 值 优先 级 队列 (代替 面向 最 大 值 优 先 级 队列 ) 来 给 出 原 地 堆 排 序 算法 一 个 
可 替代 的 描述 。 

交易 股票 的 网 上 计算 机 系统 需要 处 理 从 “以 $x 每 份 价格 买 100 份 ”到 “以 Sy 每 份 价格 卖 100 
份 ”的 订单 。 买 $x 的 订单 只 有 在 存在 价格 $y 的 卖 订单 并 且 y « x 时 才 会 被 处 理 。 同 样 ， 卖 
$y 的 订单 只 有 在 存在 价格 $x 的 买 订单 并 且 y 和 二 时 才 会 被 处 理 。 如 果 一 个 购买 或 出 售 订单 到 
来 但 不 能 被 处 理 ， 它 必须 等 待 一 个 未 来 的 允许 它 进行 处 理 的 订单 。 请 描述 一 种 方案 ， 允 许 买 
或 卖 订单 以 O(log n) 的 时 间 进 入 系统 ， 与 它们 是 否 被 立即 处 理 无 关 。 

针对 之 前 的 问题 扩展 一 个 解决 方案 ， 以 便 让 用 户 可 以 更 新 他 们 的 购买 或 出 售 的 还 没有 被 处 理 
的 订单 价格 。 

一 群 孩子 想 要 玩 一 个 被 称 作 反 鸡 断 的 游戏 ， 在 该 游戏 中 ， 每 回 拥 有 最 多 钱 的 玩家 必须 把 他 /她 
一 半 的 钱 给 拥有 最 少 钱 的 玩家 。 什 么 数据 结构 能 被 用 来 高 效 地 玩 这 种 游戏 ?为 什么 ? 


实现 原 地 堆 排 序 算法 ， 并 通过 实验 与 非 原 地 的 标准 堆 排序 算法 的 运行 时 间 做 比较 。 
使 用 练习 C-9.42 或 C-9.43 的 方法 重新 实现 7.6.2 节 的 FavoritesListMTF 类 的 top 方 法。 确保 
结果 从 最 小 到 最 大 生成 。 
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P-9.55 
P-9.56 


P-9.57 


P-9.58 








编写 一 个 程序 ， 就 像 在 练习 C-9.50 中 描述 的 可 以 处 理 一 系列 股票 买卖 订单 。 

5 表示 在 平面 上 拥有 不 同 整数 x 和 y 坐标 的 n 个 点 的 集合 。 用 7 了 表示 存储 5 外 部 节点 中 的 点 的 
完全 二 又 树 。 以 便于 这 些 点 能 够 以 X 坐 标 增加 的 方式 从 左 到 右 排序 。 对 于 每 一 个 在 7 中 的 节 
Hiv, MSM 表示 包含 存储 以 * 为 根 的 子 树 的 点 。 对 于 了 的 根 >， 定 义 top) 是 在 拥有 最 大 y 
坐标 的 S = S(r) 上 的 点 。 对 于 每 一 个 其 他 节点 v， 定 义 top(r) 为 在 S(v) 中 拥有 最 高 y 坐标 以 及 
不 在 S(u) 中 拥有 最 高 的 y 坐标 的 点 ,在 7 中 4 是 v 的 父 节 点 (如果 这 样 的 节点 存在 )。 如 此 标 
记 使 了 成 为 一 个 优先 级 搜索 树 。 请 针对 把 了 变 成 一 个 优先 级 搜索 树 描述 一 个 线性 算法 ， 并 实 
现 这 个 方法 。 

优先 级 队列 的 一 个 主要 应 用 是 操作 系统 一 一 在 CPU 上 的 调度 工作 。 在 这 个 项 目 中 ， 你 将 创建 
一 个 类 似 于 CPU 调度 工作 的 程序 。 你 的 程序 应 该 运行 在 一 个 循环 中 ， 它 的 每 一 次 遍历 相当 于 
CPU 的 一 个 时 间 片 。 每 个 工作 被 设 定 一 个 优先 级 ， 它 是 - 20 (最 高 优先 级 ) ~ 19 (最低 优 先 级 ) 
的 整数 ， 从 在 一 个 时 间 片 等 待 被 执行 的 所 有 工作 中 ，CPU 必须 调用 拥有 最 高 优先 级 的 工作 。 
在 这 个 模拟 中 ， 每 个 工作 也 将 包含 一 个 长 度 值 ， 它 是 1 ~ 100 的 一 个 整数 值 ， 表 示 处 理 这 个 
工作 需要 的 时 间 片 数 。 为 了 简单 ， 你 可 以 假设 工作 不 能 被 打 断 一 一 一 旦 它 被 CPU 调用 ， 一 个 
工作 运行 需要 等 于 它 长 度 的 时 间 片 。 模 拟 必须 在 每 个 被 调用 的 时 间 片 输出 运行 在 CPU 上 的 工 
作 的 名 字 ， 并 且 必 须 处 理 一 个 命令 序列 ， 每 个 时 间 片 一 个 ， 每 一 个 命令 由 “增加 长 度 n BT. 
作 的 名 字 和 优先 级 p” 或 “在 这 个 时 间 片 没有 新 的 工作 ”组 成 。 

开发 一 个 可 适应 优先 级 队列 的 Python 实现 ,该 队列 基于 一 个 未 排序 的 列表 ,并且 支持 位 置 感 
知 元 组 。 





扩展 阅读 

Knuth 关于 排序 和 搜索 的 书 059! 描 述 了 选择 排序 、 持 入 排序 和 堆 排 序 算法 的 动机 和 历史 。 堆 排序 算 
法 由 Willoams" 叶 完成 ,线性 时 间 堆 构造 算法 由 FloydP?! 完成 。 堆 和 堆 排序 变化 更 多 的 算法 和 分 析 参 
见 Bentley"®!, Carlsson??, Gonnet 和 Munro "?, McDiarmid 和 Reed"? 以 及 Schaffer 和 Sedgewick™ 所 
撰写 的 论文 。 
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Data Structures and Algorithms in Python 


映射 、 哈 希 表 和 跳跃 表 





10.1 映射 和 字典 

dict 类 可 以 说 是 Python 语言 中 最 重要 的 数据 结构 。 它 表示 一 种 称 作 字 典 的 抽象 ， 在 其 
中 每 个 唯一 的 关键 字 都 被 映射 到 对 应 的 值 上 。 由 于 字典 所 表示 的 键 和 值 之 间 的 关系 ,我 们 
通常 将 其 称 为 关联 数组 (associative array) 或 映射 (map)。 在 本 书 中 ， 我 们 使 用 术语 字典 
( dictionary) 来 讨论 Python 的 dict 类 ， 并 且 使 用 术语 映射 (map) 来 讨论 抽象 数据 类 型 的 更 
一 般 的 概念 。 

图 10-1 给 出 了 一 个 简单 的 例子 ， 展 示 了 一 个 从 国家 名 字 到 其 货币 单位 的 对 应 关系 的 映射 。 


Turkey Spain Greece China United States India 








Lira Euro Yuan Dollar Rupee 


图 10-1 一 个 从 国家 ( 键 ) 到 它们 对 应 的 货币 单位 ( 值 ) 的 映射 


我 们 指定 键 (国家 名 字 ) 是 唯一 的 ,但 是 值 (货币 单位 ) 不 需要 唯一 。 比 如 ， 我 
们 对 西班牙 和 和 希腊 均 指 定 欧元 为 货币 。 映 射 使 用 类 似 数 组 的 语法 来 进行 索引 ， 比 如 用 
currency['Greece'] 来 访问 与 给 定 键 相关 的 值 ， 或 者 用 currency['Greece'] = 'Drachma' 将 其 重 
新 映射 到 一 个 新 的 值 。 与 标准 的 数组 不 同 ， 映 射 的 索引 不 需要 连续 性 和 数字 化 。 以 下 是 几 种 
常见 的 映射 的 应 用 。 

e 一 所 大 学 的 信息 系统 依赖 于 某 种 形式 的 的 映射 ， 这 种 映射 以 学 生 ID 作为 键 ， 并 且 将 
其 映射 到 学 生 相 关 的 记录 (例如 学 生 的 姓名 、 地 址 和 课程 成 绩 ) 作为 值 。 
域名 系统 (DNS) 将 主机 名 映射 到 一 个 网 络 协议 (IP) 地 址 ， 例 如 将 www.wiley.com 
映射 到 208.215.179.146。 
社交 媒体 网 站 通常 依赖 于 一 个 用 户 名 ( 非 数 字 ) 作为 键 ， 这 样 的 键 可 以 高 效 地 映射 到 
特定 用 户 的 相关 信息 上 。 
计算 机 图 形 系统 可 以 将 一 个 颜色 名 称 映射 到 用 于 描述 颜色 RGB ( 红 - 绿 - 蓝 ) 的 三 
元 组 上 ， 如 “天 蓝 色 ”可 以 映射 为 (64，224，208 )。 
Python 使 用 字典 来 表示 每 个 命名 空间 ， 将 一 个 标识 字符 串 映 射 到 相关 的 对 象 上 ， 如 
将 PI 映射 到 3.14159, 

在 这 一 章 和 下 一 章 中 我 们 将 介绍 如 何 实现 这 样 的 映射 ， 以 实现 高 效 地 搜索 键 和 它 相 应 的 
值 ， 从 而 支持 在 应 用 中 的 快速 查找 。 


10.1.1 映射 的 抽象 数据 类 型 
在 这 一 部 分 ， 我 们 引入 映射 ADT， 并 且 定 义 其 行为 以 使 其 与 Python 内 建 类 dict 一 致 。 
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首先 ， 我 们 列 出 了 映射 M 最 为 重要 的 五 类 行为 : 
M[k]: 如 果 存 在 ， 返 回 在 映射 M 中 与 键 k 相对 应 的 值 ， 否 则 返回 KeyError 错误 。 在 
Python 中 ， 这 个 功能 是 由 特定 的 方法 — getitem _ 实现 的 。 
M[k] =v: 将 映射 M 中 的 值 v 与 键 k 建立 关联 ， 如 果 映 射 中 的 键 k 已 经 有 对 应 的 值 
存在 ， 则 替换 该 值 。 在 Python 中 ， 这 个 功能 由 特定 的 方法 setitem _ 实现 。 
del M[k] : 从 映射 M 中 删除 键 为 k 的 元 组 ， 如果 M 中 不 存在 这 样 的 元 组 ， 则 返回 
KeyError 错误 。 在 Python 中 ， 这 个 功能 由 特定 的 方法  delitem _ 实现 。 
len(M): 返回 在 映射 M 中 元 组 的 数量 。 在 Python 中 ， 这 个 功能 由 特定 的 方法 len _ 
实现 。 
iter(m) : 默认 的 对 一 个 映射 迭代 生成 其 中 所 包含 的 所 有 键 的 序列 。 在 Python 中 ， 这 
个 功能 由 特定 的 的 方法 iter _ 实现 ， 并 且 它 支持 以 for k in M 形式 控制 的 循环 。 
我 们 强调 了 上 述 五 类 行为 ， 因 为 它们 展示 了 映射 的 核心 功能 ， 即 请 求 、 增 加 、 修 改 或 者 
删除 key-value 键 值 对 ， 以 及 输出 所 有 这 些 键 值 对 的 功能 。 为 了 实现 其 他 的 方便 功能 ， 映 射 
M 应 该 也 支持 如 下 行为 : 
eKinM: 如 果 映 射 中 包含 键 为 k 的 元 组 则 返回 True。 在 Python 中 这 个 功能 由 特定 的 
Jiik contains XM, 
e M.get(k.d= None): 如 果 在 映射 中 存在 键 k 则 返回 M[k] ， 和 否则 返回 缺 省 值 d。 这 种 方 
法 提供 了 一 种 避免 返回 KeyError 风险 的 M[k] 查询 方法 。 
e M.setdefault(k, d) : 如 果 在 映射 M 中 存在 键 k， 则 简单 返回 Mk], WREE k 不 存在 ， 
则 设置 M[k] = d， 并 返回 这 个 值 。 
e M.pop(k, d = None) : 从 映射 M 中 删除 键 为 k 的 元 组 ， 并 且 返 回 与 其 对 应 的 值 v。 如 
RE k 不 在 映射 中 ， 则 返回 缺 省 值 d (或 者 如 果 参 数 d 为 None， 则 抛 出 KeyError)。 
e M.popitem() : 从 映射 M 中 随机 删除 一 个 key-value 键 — 值 对 ， 并 返回 一 个 用 于 表示 
被 删除 的 键 -= 值 对 的 (k, v) 数据 元 组 。 如 果 映 射 M 为 空 ， 则 抛 出 KeyError。 
M.clear(): 从 映射 中 删除 所 有 的 key-value 键 值 对 。 
M.keys(): 返回 一 个 含有 映射 M 中 所 有 键 的 集合 的 视图 。 
M.values(): 返回 一 个 含有 映射 M 中 所 有 值 的 集合 的 视图 。 
M.items(): 返回 一 个 含有 M 中 所 有 键 值 对 元 组 的 集合 。 
M.update(M2): 对 于 M2 中 每 一 个 (k, v) 对 进行 复制 ， 设 置 M[k] =v. 
M == M2: 如 果 映 射 M 和 M2 中 所 有 的 key-value 键 值 对 完全 相同 ， 则 返回 True. 
MI! = M2: 如 果 映 射 M 和 M2 包含 有 不 同 的 key-value 键 值 对 ， 则 返回 True。 
例题 10-1 : 下 表 中 展示 了 用 单个 字符 作为 键 、 用 整数 数字 作为 值 来 对 一 个 初始 化 为 空 
的 映射 进行 一 系列 操作 所 产生 的 效果 。 我 们 使 用 Python 中 dict 类 的 语法 来 描述 映射 的 内 容 。 


LE: Wo B 
ETT a — nudus 
MKT ee Se 
M[B]- 4 PK 2, BEG} 
MUE? E E v 
M['V']=8 | -| EAAS) 
M['K']=9 Pm ,B40 





M['B'] 
M['X'] 
M.get('F') 
M.get('F', 5) 
M.get('K', 5) 
len(M) 

del M['V'] 
M.pop('K") 
M.keys() 
M.values() 
M.items() 


M.setdefault('B', 1) 
M.setdefault('A', 1) 


M.popitem() 


KeyError 


None 


Bt "U' 


(B', 4), ('U', 2) 


上 ES B tA 
T Bi 
E 
it 


一 | 一 | 二 | 二 | 上 | 二 | 二 | lllzlzale 


('B', 4) 


10.4.2 WA: 单词 频率 统计 


现在 ， 考 虑 统计 一 个 文档 中 单词 出 现 频率 的 问题 ， 以 此 作为 使 用 映射 的 实例 研究 。 例 
如 ， 当 对 邮件 和 新 闻 文 章 进行 分 类 时 ， 这 种 单词 频率 统计 是 统计 分 析 文 档 过 程 中 的 标准 任 
务 。 映 射 在 这 里 是 一 个 理想 的 数据 结构 ， 因 为 我 们 能 够 使 用 单词 作为 刍 ， 单词 的 数量 作为 
值 。 在 代码 段 10-1 中 ,我 们 展示 了 这 样 一 个 应 用 。 


代码 段 10-1 


DIV 人 小三 轴 人 一 


二 


CBS 
{'B': 


这 个 映射 ， 将 输入 转化 为 小 写字 母 并 忽略 所 有 的 非 字母 字符 


freq = { } 


for piece in open(filename).read( ).lower( ).split(): 
# only consider alphabetic characters within this piece 
word = '' join(c for c in piece if c.isalpha()) 


if word: 


# require at least one alphabetic character 


freq[word] = 1 + freq.get(word, 0) 


max word = '' 
max.count = 0 


for (w,c) in freq.items(): 
if c > max. count: 
max word — w 
max_count = c 


# (key, value) tuples represent (word, count) 


print('The most frequent word is', max_word) 
print('Its number of occurrences is', max count) 





CE) 
2,'V: 8} 
2, 'V': 8} 
2, 'V': 8} 
2,'V* 8} 
2, 'V': 8} 
2, 'V': 8) 
2} 


"23 


一 个 统计 单词 出 现 频率 并 报告 出 现 最 频繁 单词 的 程序 。 我 们 使 用 Python 的 dict 类 实现 


我 们 结合 使 用 file 和 string 方法 来 分 割 原 文档 ， 从 而 导致 文档 的 所 有 空白 分 割 文件 的 小 
写 版 本 循环 。 我 们 忽略 所 有 的 非 字 母 字 符 ， 这 样 ， 括 号 、 引 号 和 其 他 标点 符号 都 不 视 为 单词 
的 组 成 部 分 。 

对 于 映射 的 操作 ， 我 们 以 Python 中 一 个 名 为 freq 的 空 字典 开始 。 在 算法 的 第 一 段 ， 我 
们 对 于 每 一 个 单词 的 出 现 执行 如 下 命令 : 


freq[word] — 1 十 freq.get(word, 0) 
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， 由 于 当前 这 个 单词 可 能 不 存在 于 字典 中 ， 因 此 我 们 使 用 get 方 法。 在 该 实例 中 采用 0 作 
为 缺 省 值 比较 合适 。 
在 算法 的 第 二 段 ， 即 在 整个 文档 已 经 处 理 结束 后 ， 我 们 检查 频率 映射 的 内 容 ， 循 环 遍 历 
freq.items() 从 而 决定 哪个 单词 具有 最 高 的 频率 。 


10.1.3 Python 的 MutableMapping 抽象 基 类 


2.4.3 节 已 经 给 出 了 对 一 个 抽象 基 类 概念 的 介绍 ， 以 及 这 些 类 在 Python 集合 模块 中 的 作 
用 。 在 这 样 的 抽象 基 类 中 ， 被 定义 为 抽象 的 方法 必须 由 具体 的 子 类 实现 。 然 而 ， 一 个 抽象 的 
基 类 可 以 提供 其 他 方法 的 具体 实现 ， 这 取决 于 所 使 用 的 假定 的 抽象 方法 。( 这 是 模板 设计 模 
式 的 一 个 例子 。) 

该 集合 组 件 提 供 了 两 个 与 我 们 现在 所 讨论 的 内 容 相 关 的 抽象 基 类 : Mapping 和 
MutableMapping。Mapping 类 包含 由 Python 的 dict 类 支持 的 所 有 不 变 方法 ， 而 MutableMapping 
类 扩展 包含 所 有 可 变 方法 。 我 们 在 10.1.1 节 所 定义 map 的 ADT 与 在 Python 集合 组 件 中 的 
MutableMapping 抽象 基 类 是 相似 的 。 

这 些 抽 象 基 类 的 意义 在 于 它们 提供 了 一 个 框架 以 帮助 创建 用 户 定 义 的 map 类 。 特 别 是 ， 
MutableMapping 类 为 所 有 行为 提供 具体 的 实现 ， 这 些 行为 不 包含 10.1.1 节 所 描述 的 五 个 行 
为 :  getitem 、 setitem , — delitem 、 — len 和 iter 。 只 要 提供 这 五 大 核心 的 
行为 ， 当 使 用 各 种 数据 结构 实现 map 抽象 类 的 时 候 ， 就 可 以 通过 简单 地 将 MutableMapping 
申明 为 父 类 来 继承 所 有 的 衍生 行为 。 

为 了 更 好 地 理解 MutableMapping 类 ， 提 供 几 个 可 以 由 五 个 核心 抽象 方法 派生 的 具体 行 
为 的 例子 。 例 如 ， 支 持 语 法 k in M 的 ”contains 方法， 可 以 通过 生成 一 个 有 保护 的 检索 
self[k] 来 实现 ， 从 而 判断 键 是 否 存在 。 


def __contains __(self, k): 
try: 
self[k] # access via _getitem__ (ignore result) 
return True 
except KeyError: 
return False # attempt failed 


可 以 用 相似 的 方式 来 实现 setdefault 方法 。 


def setdefault(self, k, d): 


try: 
return self[k] # if _getitem__ succeeds, return value 
except KeyError: # otherwise 
self[k] — d # set default value with .setitem - 
return d # and return that newly assigned value 


我 们 把 MutableMappling 类 剩余 的 具体 方法 的 实现 留 作 练习 。 


10.1.4 我 们 的 MapBase 类 


我 们 将 提供 许多 map ADT 的 不 同 实现 ， 在 本 章 剩余 部 分 以 及 下 一 章 中 ,我 们 使 用 各 种 
数据 结构 展示 了 对 这 些 实现 的 优点 和 缺点 的 权衡 。 图 10-2 提供 了 这 些 类 的 预览 。 

MutableMapping 这 个 来 自 于 Python 的 collections 模块 的 抽象 基 类 ， 是 实现 map 的 一 个 
有 价值 的 工具 。 然 而 ， 为 了 更 好 地 实现 代码 的 重用 ， 我 们 定义 了 自己 的 MapBase 类 ， 它 本 
身 是 MutableMapping 类 的 子 类 。 我 们 定义 的 MapBase 类 对 组 成 设计 模式 提供 额外 的 支持 。 
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这 种 技术 供 我 们 在 内 部 使 用 ， 通 过 将 一 个 键 - 值 对 作为 一 个 实例 进行 分 组 的 方式 实现 优先 级 
队列 (UE 9.2.1 15) 时 曾 介绍 过 这 一 方法 。 


MutableMapping | 
(collections 模 块 ) 
— Ó— 
MapBase f 
(10145) | 
nsortedTableMap HashMapBase | | SortedTableMap | 
-(d01555 p [ 100245) p | (0310)  J 
ChainHashMap | ProbeHashMap f 
(10241) [| | (102405 | 


图 10-2 map 的 层次 结构 (参考 定义 这 些 类 的 章节 ) 














Gum | 


( "ios ) 












更 正式 地 说 ， 在 代码 段 10-2 中 我 们 定义 的 MapBase 类 扩展 了 现 有 的 MutableMapping fili 
象 基 类 ， 这 样 我 们 便 可 以 继承 该 类 提供 的 许多 具体 的 方法 。 然 后 ， 我 们 定义 了 一 个 非 公 有 
的 舱 套 _Item 类 ， 它 的 实例 可 以 同时 存储 key 和 value. ix4- BEES ARTE 9.2.1 节 定 义 在 
PriorityQueueBase 类 中 的 Item 类 很 相似 ， 除 了 对 于 map 我 们 提供 了 对 相等 测试 和 比较 的 支持 ， 
且 这 两 种 操作 都 依赖 于 元 组 的 键 。 相 等 的 概念 对 于 我 们 所 有 的 map 实现 都 是 必要 的 ， 因 为 ， 
我 们 可 以 利用 这 种 方式 来 判断 一 个 给 定 的 键 是 否 与 已 经 存储 在 map 中 的 某 一 个 键 相 等 。 稍 后 ， 
我 们 将 介绍 有 序 的 map ADT ( 10.3 节 )， 使 用 操作 符 < 来 比较 两 个 键 之 间 的 关系 是 比较 合适 的 。 


代码 段 10-2 通过 扩展 MutableMapping 抽象 基 类 实现 非 公有 类 _ltem， 以 满足 各 种 映射 应 用 


1 class MapBase(MutableMapping): 
"""Our own abstract base class that includes a nonpublic Item class." "" 


2 

3 

4 }}------------------------------- nested ltem class —------------------------------ 
5 class ltem: 

6 """Lightweight composite to store key-value pairs as map items." "" 
7 --slots.. = ' key', ' value' 

8 


9 def . init... (self, k, v): 
10 self. key — k 


11 self. value = v 


13 def .. eq... (self, other): 


14 return self. key == other. key # compare items based on their keys 
15 

16 def ..ne. (self, other): 

17 return not (self —— other) # opposite of eq. 

18 

19 def . It. (self, other): 

20 return self. key — other. key # compare items based on their keys 


10.1.5 简单 的 非 有 序 映 射 实 现 
我 们 通过 一 个 简单 的 map ADT 的 具体 实现 来 说 明 MapBase 类 的 使 用 。 代 码 段 10-3 给 出 


BH]. "Abo Ro festsxtk 269 


了 一 个 通过 在 Python 列表 内 以 任意 顺序 存储 key-value 对 来 实现 的 UnsortedTableMap 类 。 


代码 段 10-3 ”一 个 用 Python 列表 作为 非 排序 表 的 map 实现 方法 ， 代 码 段 10-2 给 
出 了 父 类 MapBase 的 实现 
class UnsortedTableMap(MapBase): 


l 

2  """Map implementation using an unordered list." " " 

3 

4 def __init__(self): 

5 """ Create an empty map." "" 

6 self. table = [ ] # list of „Item's 
7 

8 def __getitem __(self, k): 

9 """ Return value associated with key k (raise KeyError if not found). "" 
10 for item in self. table: 

11 if k == item. key: 

12 return item. value 

13 raise KeyError('Key Error: ' + repr(k)) 

14 

15 def __setitem __(self, k, v): 

16 """ Assign value v to key k, overwriting existing value if present." "" 

17 for item in self. table: 

18 if k —— item.. key: # Found a match: 
19 item. value — v # reassign value 
20 return # and quit 

21 # did not find match for key 

22 self. table.append(self. Item(k,v)) 

23 

24 def . delitem __(self, k): 

25 """ Remove item associated with key k (raise KeyError if not found)."”” 
26 for j in range(len(self. table)): 

27 if k == self._table[j]._key: # Found a match: 
28 self. table.pop(j) # remove item 
29 return # and quit 

30 raise KeyError('Key Error: ' + repr(k)) 

31 

32 def . len. (self): 

33 """ Return number of items in the map." "" 

34 return len(self. table) 

35 

36 def iter. (self): 

37 """ Generate iteration of the map's keys." "" 

38 for item in self. table: 

39 yield item. key # yield the KEY 


在 我 们 的 map 构造 器 中 ， 将 一 个 空 的 表格 初始 化 为 self._table。 当 一 个 新 的 键 被 放 入 
map 中 ， 通 过 22 行 的 __setitem_ _ 方 法， 我们 创建 了 一 个 向 套 类 Item HLH, Hime 
承 自 MapBase 类 。 

这 个 基于 列表 的 map 实现 很 简单 ， 但 不 是 很 有 效率 。 每 一 个 基本 方法 ，_getitem _、 
__setitem 和 delitem ， 都 依赖 于 一 个 for 循环 扫描 列表 中 的 元 组 ， 以 搜索 匹配 的 键 。 
在 最 好 的 情况 下 ， 这 样 的 匹配 可 以 在 列表 的 开头 附近 找到 ， 并 且 循 环 终止 ; 在 最 坏 的 情况 
下 ， 则 需要 搜索 整个 列表 。 因 此 ， 在 包含 个 元 组 的 map 中 ， 这 些 方法 都 可 以 在 O(n) 时 间 


复杂 度 内 完成 。 


10.2 WAR 
在 这 一 部 分 ,我们 介绍 一 个 最 实用 的 实现 map 的 数据 结构 ， 而 且 Python 还 用 它 来 实现 


270 #10 ¥ 


dict 类 ， 这 种 结构 被 称 为 哈 希 表 。 

直观 地 说 ， 映 射 M 支 持 使 用 键 作 为 索引 的 抽象 ， 它 的 语法 如 M[ 间 。 先 考虑 一 种 有 限制 
的 设置 ， 在 这 个 设置 的 映射 中 含有 nn 个 元 组 ， 对 于 一 些 N 三 n 情况 ,使 用 范围 在 0 到 NN-1 的 
整数 值 作为 键 。 在 这 种 情况 下 ， 我 们 可 以 使 用 长 度 为 N 的 查找 表 来 表示 这 个 映射 ， 如 图 10-3 
所 示 。 





图 10-3 ”一 个 包含 (1，D)、(3，Z)、(6，C) 和 (7，Q) 且 长 度 为 11 的 哈 希 表 


在 这 种 表示 下 ， 我 们 将 键 值 上 对 应 的 值 存 储 在 表 中 索引 值 为 上 的 位 置 上 (假定 我 们 有 一 
个 明确 的 方式 表示 空 权 )。 getitem 、 setitem 和 delitem _ 等 基本 映射 操作 能 够 在 
最 坏 情况 下 以 0(1) 的 时 间 复 杂 度 完成 。 

将 这 个 框架 扩展 到 更 一 般 的 映射 设置 有 两 个 挑战 。 首 先 ， 如 果 在 入 > > n 的 情况 下 ,我 
们 并 不 希望 将 一 个 长 度 为 的 数组 分 配给 这 个 映射 。 第 二 ,我 们 一 般 不 会 要 求 一 个 映射 的 
键 必须 是 整数 。 哈 希 表 的 一 个 新 概念 是 使 用 哈 希 函数 将 每 个 一 般 的 键 映 射 到 一 个 表 中 的 相应 
索引 上 。 在 理想 情况 下 ， 键 将 由 哈 希 函数 分 布 到 从 0 到 N- 1 的 范围 内 ， 但 是 在 实践 中 可 能 
有 两 个 或 者 更 多 的 不 同 键 被 映射 到 同一 个 索引 上 。 因 此 ， 我 们 将 表 概 念 化 为 桶 数组 ， 具 体 如 
图 10-4 所 示 ， 其 中 每 个 桶 都 管理 一 个 元 组 集合 ， 而 这 些 元 组 则 通过 哈 希 函数 发 送 到 具体 的 
索引 。( 为 了 节约 空间 ， 空 桶 可 以 用 None RE.) 


pS E E is 
(14,2) eae 


图 10-4 一 个 使 用 哈 希 函数 的 桶 ， 桶 中 包含 CI, D, (25, C) (3, F) (14, Z), 
(6,A) (39, C) 和 (7,Q)， 容 量 为 11 





10.2.1 Bema 


哈 希 函数 户 的 目标 就 是 把 每 个 键 k 映射 到 [0,N — I) KAW RA, HPN BIA 
的 桶 数组 的 容量 。 使 用 这 种 哈 希 函数 有 hh 的 主要 思想 是 使 用 哈 希 函数 值 (A) 作为 哈 希 桶 数组 
4 内 部 的 索引 ， 而 不 用 键 丰 做 索引 (直接 用 键 k 作 索引 可 能 不 合适 )。 也 就 是 说 ， 我 们 在 桶 
A[Ah(k)] 中 存储 元 组 (k, v). 

如 果 有 两 个 或 者 更 多 的 键 具 有 相同 的 哈 希 值 ， 那 么 两 个 不 同 的 元 组 将 被 映射 到 相同 的 桶 
4 中 。 在 这 种 情况 下 ， 我们 说 发 生 了 一 次 冲突 。 虽 然 不 可 否认 ， 有 很 多 方法 可 解决 冲突 ， 且 
我 们 将 在 稍 后 讨论 ,但 是 最 好 的 策略 是 在 最 初 尽量 避免 其 发 生 。 如 果 一 个 哈 希 函数 能 在 映射 
map 中 的 键 时 最 小 化 冲突 的 发 生 ， 我 们 就 说 该 喻 希 函 数 是 “好 的 ”。 出 于 实际 的 需要 ， 我 们 
也 同时 希望 哈 希 函数 是 快速 且 易 于 计算 的 。 

PET HE is PRL ACK) 常见 的 方法 由 两 部 分 组 成 : 一 个 哈 希 码 ， 将 一 个 键 映射 到 一 个 整数 ; 
一 个 压缩 函数 ， 将 哈 希 码 映射 到 一 个 桶 数组 的 索引 ， 这 个 索引 是 范围 在 区 间 [0, N- 1] 的 一 
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个 整数 ( 见 图 10-5 )。 
将 哈 希 函数 分 成 这 样 的 两 个 组 件 的 优 
势 是 : 哈 硕 码 计算 部 分 独立 于 具体 的 哈 希 表 


ned 
的 大 小 。 这 样 就 可 以 为 每 个 对 象 开发 一 个 通 E 


用 的 喻 希 码 ， 并 且 可 以 用 于 任何 大 小 的 哈 希 -4-0000000000000000000009—— 
表 ， 只 有 压缩 函数 与 表 的 大 小 有 关 。 这 样 就 

特别 方便 ， 因 为 哈 希 表 底 层 的 桶 数组 可 以 根 

据 当前 存储 在 映射 (map) 中 的 元 组 数 动态 Se 
调整 大 小 (WL 10.2.3 35). Wi dido 3 


图 10-5. ” 哈 希 函数 的 两 个 部 分 : 哈 希 码 和 压缩 函数 
10.2.2 RAD 


Wey is PRI BCAA BY) — A RT P EE E 1 8E k, OOPBLIETERESI T Ek 
HRA; 这 个 整数 不 需要 在 [0, N - 1] 范围 内 ， 甚 至 可 以 是 负数 。 我 们 希望 分 配给 键 的 哈 
希 码 集 合 尽 可 能 避免 冲突 。 因 为 ， 如 果 键 的 哈 希 码 产生 了 冲突 ， 那 么 我 们 的 压缩 函数 也 无 法 
回避 这 种 冲突 。 在 本 节 中 ， 我们 首先 讨论 哈 希 码 的 理论 。 接 下 来 ， 我们 讨论 Python 中 哈 希 
码 的 具体 实现 。 

将 位 作为 整数 处 理 

首先 ,我们 注意 到 ， 对 于 任何 数据 类 型 蕊 使 用 尽 可 能 多 的 位 作为 我 们 的 整数 哈 希 码 ， 可 以 
简单 地 把 用 于 表示 整数 了 的 各 个 位 作为 它 的 哈 希 码 。 例 如 ， 键 314 可 以 简单 地 用 314 作为 喻 希 
人 码 。 浮 点 数 的 哈 希 码 Ch 3.14 ) 可 以 由 该 浮 点 数 各 个 位 上 的 数 所 构成 的 整数 来 表示 (314). 

以 上 方案 不 能 直接 适用 于 一 个 按 位 表示 长 于 所 需 的 哈 希 代码 长 度 的 类 型 。 例 如 ，Python 
中 的 哈 希 码 的 长 度 是 32 位 。 如 果 一 个 浮 点 数 是 采用 64 位 表示 的 ， 则 它 的 按 位 表示 的 形式 就 
不 能 直接 作为 哈 希 码 使 用 。 一 种 可 能 的 解决 方法 是 只 使 用 高 阶 32 位 (或 低 阶 32 位 )。 当 然 
这 种 哈 布 码 将 忽略 在 原来 键 中 的 一 半 信 息 ， 如 果 我 们 的 映射 中 许多 键 只 在 这 些 忽略 的 位 上 不 
同 ， 那 么 采用 这 种 简化 的 哈 希 码 将 会 发 生 冲 突 。 

更 好 的 解决 办 法 是 将 64 位 键 的 高 阶 32 位 和 低 阶 32 位 采用 一 定 的 方式 进行 合并 ， 生 成 
一 个 32 位 的 哈 希 码 ， 这 样 就 将 所 有 的 原始 位 信息 都 考虑 在 内 了 。 一 个 简单 的 实现 是 把 两 个 
部 分 作为 32 位 数字 相 加 (忽略 溢出 )， 或 者 将 两 部 分 做 异 或 操作 。 这 些 合并 两 部 分 的 方法 能 
够 扩展 到 任意 对 象 x*， 且 对 象 x 的 二 进 制 表示 可 以 视 为 32 位 整数 的 n 元 组 (Xo, xis xe), 


则 可 以 用 人 x 或 者 Xo Dx, BoD xm KER x WM AS, RTS ORR EERE (在 


Python 中 用 ^ 表 示 )。 

多 项 式 哈 希 码 

上 面 所 描述 的 用 求 和 或 异 或 计算 哈 硕 码 的 方法 对 于 字符 串 或 其 他 用 (xo, Xi, …, x») 元 组 
形式 表示 的 可 变 长 度 对 象 并 不 是 好 选择 ， 这 里 元 组 中 x; 的 顺序 很 重要 。 比 如 考虑 一 个 字符 串 
s， 用 s 中 各 字符 的 Unicode 值 的 和 生成 16 位 哈 硕 码 。 不 幸 的 是 ， 这 种 哈 希 代码 对 于 常见 的 
字符 串 组 而 言 会 产生 大 量 的 不 必要 的 冲突 。 使 用 此 方法 ， 形 如 "temp01" 和 "templo" 的 字符 
串 的 哈 希 码 会 产生 冲突 ，"stop" "tops" "pots" 和 "spot" 的 哈 希 码 也 会 产生 冲突 。 更 好 的 哈 希 
码 应 该 通过 某 种 方式 考虑 x; 的 位 置 。 一 种 可 选 的 哈 希 码 计算 方法 可 以 满足 这 样 的 要 求 : 选择 
一 个 非 零 常数 a H az#1， 并 这 样 计算 哈 希 码 : 





n-l n-2 
X0G 十 为 G 中 veer PE 24 +X 


从 数学 上 讲 ， 这 仅仅 是 包含 a 并 以 表示 对 象 x 的 元 组 (xo, xi, …, Xn) 中 的 元 素 为 系数 的 一 个 
多 项 式 表 示 。 因 此 这 种 哈 希 码 称 为 多 项 式 哈 希 码 。 利 用 Horner 规则 ( 见 练习 C-3.50 )， 这 个 
多 项 式 可 以 按 如 下 表达 式 计算 : 

X,4 TA ta s+ +a(x,+ax,))---)) 

直观 地 说 ， 一 个 多 项 式 的 喻 希 码 通过 乘 以 不 同 权 值 的 方式 来 分 散 每 一 部 分 对 哈 希 人 码 结 果 
的 影响 。 

当然 ， 在 一 个 典型 的 计算 机 上 ， 将 通过 使 用 有 限 位 数 表示 哈 希 代码 来 评估 一 个 多 项 式 ， 
因此 ， 这 些 用 于 表示 整数 的 位 的 值 会 周期 性 溢出 。 由 于 我 们 更 感 兴趣 的 是 一 个 相对 于 其 他 键 
具有 很 好 的 传播 性 的 对 象 x:， 因 此 我 们 直接 忽略 了 这 样 的 溢出 。 不 过 ， 我 们 仍然 会 关注 这 种 
溢出 的 发 生 ， 并 且 选 择 一 个 常量 ga， 以 便于 它 包 含 一 些 非 零 的 低 阶 位 ， 使 其 能 够 在 即使 发 生 
了 溢出 的 状态 下 ， 仍 然 能 保留 一 些 信息 内 容 。 

我 们 已 做 过 的 一 些 实验 研究 表明 : 在 处 理 英 文字 符 串 时 ，33、37、39 和 41 是 特别 适 
RE a (AWN. FKE, FER 50 000 个 英语 单词 形成 的 联合 单词 列表 中 提供 两 种 Unix 变 
种 ,我 们 发 现 当 a 取 33、37、39 或 者 41 时 在 每 个 用 例 中 产生 的 冲突 将 少 于 7 个 。 

循环 移 位 哈 希 码 

一 个 多 项 式 哈 希 码 的 变种 ， 是 用 一 定数 量 的 位 循环 位 移 得 到 的 部 分 和 来 替代 乘 以 wa。 例 
如 ， 一 个 32 位 数 00111101100101101010100010101000 的 五 位 循环 移 位 值 ， 是 取 其 最 左边 
五 位 ， 并 且 将 它们 放置 到 数据 的 最 右边 ， 得 到 结果 10110010110101010001010100000111。 
虽然 这 种 操作 在 算术 方面 具有 很 小 的 实际 意义 ,但 是 它 完成 了 改变 二 进 制 位 的 计算 目标 。 在 
Python 中 ， 二 进 制 位 循环 移 位 可 以 通过 使 用 按 位 运算 符 << 和 > > 完成 ， 从 而 截取 结果 为 
32 位 整数 。 

在 Python 中 字符 串 循 环 移 位 的 哈 希 码 计算 的 实现 如 下 : 


def hash. code(s): 
mask = (1 << 32) - 1 # limit to 32-bit integers 
h=0 
for character in s: 
h = (h << 5 & mask) | (h >> 27) #5-bit cyclic shift of running sum 
h += ord(character) # add in value of next character 
return h 


就 像 传统 的 多 项 式 哈 希 码 ， 在 使 用 循环 移 位 哈 希 码 时 需要 微调 ， 因 为 我 们 必须 仔细 地 对 
于 每 一 个 新 字符 选择 移 位 的 位 数 。 通 过 在 超过 230 000 个 英文 单词 的 列表 上 ， 对 不 同 移 位 位 
数 所 产生 的 冲突 数 的 实验 结果 的 比较 ， 我 们 决定 选择 5 位 移 位 〈 见 表 10-1 )。 


表 10-1 循环 移 位 哈 希 码 应 用 于 230 000 个 英语 单词 列表 的 冲突 行为 的 比较 。Total 列 记录 至 少 与 一 
个 其 他 单词 发 生 冲突 的 单词 的 总 数量 ， 而 Max 列 记 录 与 任何 一 个 哈 希 码 产生 冲突 的 单词 的 
最 大 数量 。 注 意 ， 当 循环 移 位 位 数 为 0 时 ， 循 环 移 位 哈 希 码 就 退化 成 对 所 有 字符 求 和 的 方法 
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Python 中 的 哈 希 码 

在 Python 中 计算 哈 希 码 的 标准 机 制 是 一 个 内 置 签 名 hash(x) 函数 ,该 函数 将 返回 一 个 整 
型 值 作为 对 象 x 的 哈 希 码 。 然 而 在 Python 中， 只 有 不 可 变 的 数据 类 型 是 可 哈 希 的 。 这 个 限 
制 是 为 了 确保 在 一 个 对 象 的 生命 周期 期 间 ， 其 哈 希 码 保 持 不 变 。 这 是 对 于 对 象 在 哈 希 表 中 作 
为 键 的 一 个 重要 属性 。 如 果 哈 希 表 中 插 人 新 的 键 则 可 能 会 产生 问题 ， 即 在 这 个 键 插入 之 后 ， 
针对 这 个 键 的 查找 会 根据 不 同 的 哈 希 码 进行 ， 而 不 是 该 键 被 插入 时 的 哈 希 码 ， 而 且 会 在 错误 
的 桶 上 进行 搜索 。 

在 Python 的 内 置 数 据 类 型 中 ， 不 可 变 的 数据 类 型 如 int, float, str, tuple, ^I frozenset 
等 会 通过 哈 希 函 数 和 之 前 讨论 过 的 类 似 技 术 生 成 健壮 的 哈 希 码 。 基 于 类 似 于 多 项 式 哈 希 三 
的 技术 ， 精 心 设计 了 的 字符 串 的 哈 希 码 ， 没 有 使 用 异 或 也 不 是 相 加 计算 。 如 果 我 们 使 用 
Python 内 置 的 哈 希 码 重复 在 表 10-1 中 所 表述 的 实验 ,将 会 发 现 只 有 8 个 字符 串 超 过 230000 
的 集合 与 其 他 字符 串 发 生 冲 突 。 使 用 相似 的 基于 元 组 的 单个 元 素 的 哈 希 码 的 组 合 技术 来 计算 
元 组 的 哈 希 码 。 元 组 的 哈 希 码 是 通过 基于 元 组 每 个 元 素 的 哈 希 码 的 组 合 相 似 的 技术 计算 而 来 
的 。 当 对 一 个 frozenset 集 对 象 进行 哈 希 时 ， 元 素 的 顺序 应 该 是 无 关 的 ， 因 此 一 个 自然 的 选 
择 是 用 异 或 值 计 算 单个 哈 硕 码 而 不 用 任何 移 位 。 如 果 hash(x) 被 一 个 可 变 类 型 的 实例 x 调用 ， 
比如 list， 则 将 会 发 生 TypeError。 

在 默认 情况 下 ， 用 户 定义 的 类 的 实例 被 视 为 是 不 可 哈 硕 的 ， 并 且 哈 硕 函 数 会 产生 
TypeError。 然 而 ， 计 算 哈 希 码 的 函数 能 够 由 在 类 中 的 一 个 名 为 hash _ 的 特殊 方法 实现 。 返 
回 的 哈 希 码 应 该 反映 一 个 实例 的 不 可 变 属 性 。 通 过 计算 组 合 属性 的 哈 希 码 来 返回 哈 硕 值 是 很 
常见 的 。 比 如 ， 一 个 Color 类 维护 着 红 、 黄 、 蓝 三 种 颜色 的 数字 组 件 ， 可 以 用 如 下 方法 实现 : 


def __hash__(self): 
return hash( (self._red, self._green, self._blue) ) # hash combined tuple 


一 个 需要 遵守 的 重要 规则 是 ， 如 果 通 过 ”eq _ 定义 一 个 类 的 等 价 类 ,， 则 __hash _ 的 
任何 实现 必须 是 一 致 的 ， 即 如 果 x == y, Bü hash(x) == hash(y)。 这 一 点 是 非常 重要 的 ， 因 为 
如 果 两 个 实例 被 判定 为 是 等 价 的 ， 并且 其 中 一 个 在 喻 希 表 中 被 作为 键 使 用 ， 则 搜寻 第 二 个 实 
例 的 操作 返回 的 结果 应 该 是 找到 了 第 一 个 键 。 因 此 ， 第 二 个 哈 希 码 与 第 一 个 哈 希 码 匹配 是 非 





常 重要 ， 只 有 这 样 才能 在 恰当 的 桶 中 查找 。 这 一 规则 可 以 扩展 到 任何 不 同类 别 的 对 象 之 间 的 
比较 。 比 如 ， 由 于 Python 中 视 表 达 式 5 == 5.0 为 true， 因 此 要 确保 hash(5) 和 hash(5.0) 是 
相等 的 。 


10.2.3 ”压缩 函数 


通常 ， 键 大 的 哈 硕 码 不 会 直接 适合 使 用 一 个 桶 数组 ， 因 为 整数 哈 希 码 可 能 是 负 的 或 可 能 
超过 桶 数组 的 容量 。 因 此 ， 当 我 们 决定 对 于 一 个 对 象 k 的 键 使 用 整数 哈 希 码 时 ， 还 有 一 个 问 
题 就 是 需要 把 整数 映射 到 [0，N -1 ] 区 间 上 。 这 是 整个 哈 希 函数 处 理 中 实施 的 第 二 个 动作 ， 
称 为 压缩 函数 。 一 个 很 好 的 压缩 函数 会 使 给 定 的 一 组 哈 硕 码 的 冲突 数 达 到 最 小 。 

划分 方法 

一 个 简单 的 压缩 函数 是 划分 方法 ， 它 将 一 个 整数 i 映射 到 NN: 

i mod N 

在 这 里 入 是 桶 数组 的 大 小 ， 是 一 个 固定 的 正 整 数 。 此 外 ， 如 果 我 们 把 n 设置 为 一 个 素 
数 ， 那 么 这 个 压缩 函数 有 助 于 “传播 ” 哈 希 值 的 分 布 。 事 实 上 ， 如 果 n 不 是 素数 ， 那 么 有 更 
大 的 风险 ， 即 蛤 希 码 分 布 的 模式 将 在 哈 希 值 的 分 布 中 重复 出 现 ， 因 而 造成 冲突 。 比 如 ， 如 
果 我 们 将 哈 希 码 为 (200, 205, 210, 215, 220, …, 600} 的 一 组 键 插入 大 小 为 100 的 哈 希 数组 桶 
中 ,， 则 每 一 个 哈 硕 码 都 将 与 其 他 的 某 三 个 哈 希 码 相 冲突 。 但 是 如 果 我 们 使 用 一 个 大 小 为 101 
的 桶 数组 ， 则 不 会 发 生 冲 突 。 如 果 选 择 了 一 个 好 的 哈 硕 函数 ， 应 该 确保 两 个 不 同 的 键 获取 相 
同 哈 希 桶 的 可 能 性 为 IN。 选择 入 为 素数 并 不 总 能 充分 地 解决 问题 ， 对 于 不 同 的 p, pN+g 
形式 的 哈 硕 码 是 重复 的 ， 那 么 仍然 将 发 生 冲突 。 

MAD 方法 

有 一 个 更 复杂 的 压缩 函数 可 以 帮助 一 组 整数 键 消除 重复 模式 ， 即 Multiply-Add-and- 
Divide (或 “MAD”) 方法 。 这 个 方法 通过 

[(ai + b) mod p] mod N 

对 i 进行 映射 ， 这 里 N 是 桶 数组 的 大 小 , p Æe Y 大 的 素数 ，a 和 是 从 区 间 [0, p-1] 
任意 选择 的 整数 ， 并 且 a > 0。 选 择 这 个 压缩 函数 是 为 了 消除 在 哈 希 码 集合 中 的 重复 模式 ， 
并 且 得 到 更 好 的 喻 希 函 数 ， 因 为 该 函数 使 得 任意 两 个 不 同 键 冲 突 的 概率 为 /N。 如 果 这 些 刍 
被 随机 均匀 地 抛 到 4 中 ， 那 么 这 就 是 我 们 期 望 的 好 的 动作 行为 。 


10.2.4 ”冲突 处 理 方案 


哈 希 表 的 主要 思想 是 使 用 一 个 哈 希 桶 数组 4 和 一 个 哈 希 函数 h， 并 用 它们 通过 对 桶 
A[h(K)] 中 存储 的 每 个 元 组 (k, 进行 排序 实现 映射 。 但 是 ， 当 有 两 个 不 同 的 关键 字 厂 A k 
FL h(k) = h(k;) 时 ， 这 个 简单 的 思想 就 会 遇 到 问题 。 由 于 存在 这 样 的 冲突 ， 使 得 我 们 不 能 简 
单 地 将 一 个 新 的 元 组 (上 v) 直接 插入 桶 ALAC] 中 。 这 个 问题 使 我 们 的 程序 执行 插入 、 搜 索 和 
删除 等 操作 都 变 得 复杂 了 。 

分 离 链表 

处 理 冲 突 的 一 个 简单 并 且 有 效 的 方式 是 使 每 个 桶 4 四 存储 其 自身 的 二 级 容器 ， 容 器 存 
fik7GfH (k, v), WACK) =7 正如 10.1.5 节 所 描述 的 那样 ， 用 一 个 很 小 的 list 来 实现 map 实 
例 是 实现 二 级 容器 很 自然 的 选择 。 这 种 解决 冲突 的 方法 称 为 分 离 链 表 (separate chaining), 
如 图 10-6 所 示 。 
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最 坏 的 情况 下 ， 单 独 的 一 个 桶 的 操作 时 间 与 桶 的 大 小 成 正比 。 假 设 我 们 使 用 一 个 比较 合适 的 
哈 希 函数 来 在 容量 为 N 的 哈 希 桶 中 索引 map 中 的 
n 个 元 组 ， 则 桶 的 理想 大 小 为 n/N。 因 此， 如 果 给 
定 一 个 很 适合 的 哈 希 函数 ， 核 心 map 操作 的 时 间 
复杂 度 为 O([ n/N |). HEIE A = WN 被 称 为 哈 硕 表 
的 负载 因子 (load factor)， 这 个 系数 应 该 选择 一 
个 较 小 常数 ， 最 好 不 大 于 1。 只 要 4 是 O(D, 
则 哈 希 表 的 核心 操作 的 时 间 复 杂 度 也 将 为 0(1)。 

开放 寻 址 

分 离 链 表 规 则 有 很 多 很 好 的 属性 ， 如 为 
映射 操作 提供 简单 的 实现 ， 但 它 仍然 有 一 个 小 
不 足 : 需要 使 用 一 个 链表 作为 辅助 的 数据 结构 
来 保存 键 值 存在 冲突 的 元 组 。 如 果 空 间 是 一 个 
额外 的 消耗 (比如 ， 我 们 正在 写 一 个 用 于 手持 
设备 的 小 程序 )， 那 么 我 们 采用 将 每 个 元 组 直接 存储 到 一 个 小 的 列表 插 槽 中 作为 蔡 代 的 方法 。 
由 于 这 种 方法 没有 采用 辅助 结构 ， 因 此 节省 了 空间 ， 但 它 需 要 一 个 更 为 复杂 的 机 制 来 处 理 冲 
突 。 这 个 方法 有 几 个 变种 ， 统 称 为 开放 寻 址 模式 的 解决 方案 。 开 放 寻 址 需要 负载 因子 总 是 最 
大 不 超过 1， 并 且 元 组 直接 存储 在 桶 数组 自身 的 单元 中 。 

线性 探测 及 其 变种 

使 用 开放 寻 址 处 理 冲突 的 一 个 简单 方法 是 线性 探测 。 使 用 这 种 方法 时 ， 如 果 我 们 想 要 将 
一 个 元 组 (k, v) df A AD] 处 ， 在 这 里 j= Ak), (AP CARA, BA, 我 们 将 尝试 插 
À A[G 1) mod N] ; # A[(j * 1) mod NM 也 已 经 被 占用 ， 则 我 们 尝试 使 用 4[0C+ 2) mod N], 
如 此 重复 操作 ， 直 到 找到 一 个 可 以 接受 新 元 组 的 空 桶 。 一 旦 定位 这 个 空 桶 ， 我 们 即 可 简单 地 
将 元 组 插入 这 个 位 置 。 当 然 这 种 冲突 解决 策略 需要 我 们 修改 ”getitem 、 — setitem ”或 者 
__delitem _ 等 所 有 操作 的 第 一 步 的 实现 方式 ,来 查找 已 存在 的 键 。 特 别 是 在 我 们 试图 查找 
键 等 于 大 的 元 组 时 ， 必 须 从 AL ACA] 开始 检测 连续 的 空间 ， 直 到 找到 一 个 键 为 上 的 元 组 或 者 
发 现 一 个 空 桶 为 止 ( 见 图 10-7). “线性 探测 ”之 所 以 得 名 ， 是 因为 访问 桶 数组 的 单元 的 操 
作 可 以 被 视 为 “探测 ”。 
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10-6 一 个 用 单独 列表 处 理 冲突 的 大 小 为 13 
且 存 储 10 个 以 整数 为 键 的 元 组 的 哈 希 
Ko FES PR BLE h(k) = k mod 13, 为 
简单 起 见 ， 我 们 没有 展示 相关 键 的 值 


插入 key=15 的 新 元 素 在 找到 空 槽 之 前 必须 探测 4 次 


Naa 





图 10-7 用 线性 探测 的 方法 向 蛤 希 表 中 插入 整数 键 ， 哈 希 函数 是 Hb - k modll, 
图 中 未 给 出 键 对 应 的 值 


为 了 实现 删除 操作 ， 我 们 不 能 把 找到 的 元 组 简单 地 从 插 模 中 移 除 。 比 如 ， 如 图 10-7 所 描 
述 的 ， 在 插入 键 15 之 后 ， 如 果 简 单 地 删除 键 为 37 的 元 组 ， 则 随后 的 一 个 搜寻 键 为 15 的 操作 
将 会 失败 ， 因 为 搜寻 将 会 从 索引 4 开始 ， 然 后 是 索引 5， 接 着 是 索引 6， 而 在 此 处 会 找到 一 个 
空 的 单元 。 解 决 这 一 问题 的 典型 方法 是 用 一 个 带 标记 的 特殊 对 象 来 蔡 换 被 删除 的 对 象 。 这 种 
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解决 方法 会 占用 哈 希 表 中 的 空间 ， 同 时 ， 相 应 地 我 们 也 会 修改 查找 键 为 k 的 元 组 的 实现 方法 : 
搜索 将 跳 过 所 有 包含 可 用 标记 的 单元 ， 并 继续 探测 直到 找到 目标 元 组 或 一 个 空 桶 (或 返回 到 
我 们 开始 的 位 置 ) 为 止 。 此 外 ， 对 于 setitem “的 算法 应 该 在 搜索 大 的 过 程 中 记 住 找到 的 可 
用 单元 ， 因 为 在 没有 找到 要 查找 的 元 组 (k,v) 时 ， 这 是 一 个 可 以 插入 该 新 元 组 的 有 效 位 置 。 

虽然 使 用 开放 寻 址 策略 能 够 节省 空间 ， 但 是 线性 探测 仍然 存在 其 他 问题 。 它 倾 问 于 将 一 
个 映射 的 元 组 集中 连续 地 存储 ， 因 此 可 能 造成 重 到 (尤其 是 在 哈 硕 表 中 的 一 半 以 上 的 单元 已 
经 被 占用 时 )。 这 种 使 用 连续 的 哈 希 单元 的 运行 方式 会 导致 搜索 速度 大 大 降低 。 

另 一 个 开放 寻 址 策略 称 为 二 次 探测 ， 它 将 反复 探测 桶 4[(h(k) +R) mod N], i = 0, 1, 
2, …， 其 中 f(i) = 产 ， 直 到 发 现 一 个 空 桶 。 与 线性 探测 相同 ， 二 次 探测 策略 会 使 删除 操作 更 
复杂 ,但 它 确实 可 以 避免 在 线性 探测 中 发 生 的 聚集 模式 。 而 且 ， 这 种 策略 还 创建 了 自己 的 聚 
集 方 法 ， 称 为 二 次 聚集 ， 即 使 我 们 假设 原来 的 哈 希 码 是 统一 的 分 布 ， 其 中 填充 的 阵列 单元 组 
仍然 是 非 统 一 的 模式 。 当 N 是 素数 并 且 桶 数组 填充 了 不 到 一 半 时 ， 二 次 探测 策略 保证 可 以 
找到 一 个 空 亲 位置。 然而， 一 旦 哈 希 表 元 组 填充 了 超过 一 半 或 者 W 不 是 素数 时 ， 这 种 策略 
就 无 法 保证 能 找到 空闲 位 置 。 我 们 将 在 练习 C-10.36 中 探讨 这 类 聚集 产生 的 原因 。 

一 种 将 不 会 引起 如 线性 探测 或 二 次 探测 所 产生 的 聚集 问题 的 开放 寻 址 策略 称 为 双 哈 希 策 
略 。 在 这 种 方法 中 ， 我 们 选择 了 一 个 二 次 哈 希 函数 加， 如 果 函 数 有 将 一 些 键 上 映射 到 已 经 被 
占据 的 桶 4[h (A) 中 ， 则 我 们 将 迭代 探测 桶 AUR) +A) mod N], i=0, 1, 2, =, HP 
fü) = i h"( 有 )。 在 这 种 情况 下 ， 不 允许 将 二 次 蛤 希 函 数 设 为 0。h( 有 ) = q - (k mod q) 是 一 个 
常 被 选用 的 函数 ， 其 中 对 于 素数 q WEN, H N 也 应 该 是 素数 。 

男 一 种 避免 聚集 的 开放 寻 址 方法 是 迭代 地 探测 桶 4[(h (kK) + f(D) mod N], 这 里 f(i) 是 一 
个 基于 伪 随 机 数 产 生 妖 的 函数 ， 它 提供 一 个 基于 原始 哈 希 码 位 的 可 重复 的 但 是 随机 的 、 连 续 
的 地 址 探测 序列 。Python 的 字典 类 现在 就 是 使 用 的 这 种 方法 。 


10.2.5 ”负载 因子 、 重 新 哈 希 和 效率 


到 目前 为 止 讨论 的 哈 希 表 策略 中 ,保证 负载 因子 4= n/N 总 是 小 于 1 是 非常 重要 的 。 使 
用 分 离 链 表 ， 在 4 的 值 非常 接近 1 时 ， 冲 突 发 生 的 概率 将 急剧 增加 ， 这 会 给 我 们 的 操作 带 来 
额外 开销 ， 因 为 在 桶 中 发 生 冲突 时 ， 我们 必须 重新 回 到 具有 线性 时 间 的 基于 列表 的 方法 。 实 
验 和 平均 实例 分 析 表明 ， 使 用 分 离 链表 时 我 们 应 该 保持 4< 0.9。 

另 一 方面 ， 使 用 开放 寻 址 方式 ， 随 着 负载 因子 4 增长 到 大 于 0.5 并 且 向 038 rH, TER 
数组 中 的 元 组 集群 也 开始 随 之 增长 。 这 些 集群 的 探测 策略 引起 桶 数组 “反弹 ”， 需 要 花费 很 
多 时 间 去 遍历 找到 一 个 空 的 位 置 。 在 练习 C-10.36 中 ,我 们 将 探讨 当 4 m 0.5 时 二 次 探测 的 
降级 问题 。 实 验 表明 ， 当 使 用 线性 探测 的 开放 寻 址 策略 时 ， 我 们 应 该 维持 4 < 0.5， 而 对 于 其 
他 开放 地 址 策略 这 个 值 可 能 会 高 一 点 (比如 ，Python 实现 的 开放 寻 址 策略 规定 4< 2/3 )。 

如 果 一 个 哈 硕 表 的 插入 操作 引起 的 负载 因子 超过 了 指定 的 阔 值 ， 那 么 调整 表 的 大 小 〈 重 
新 获取 指定 的 负载 因子 ) 并 且 将 所 有 的 对 象 重新 插入 新 表 中 是 很 常见 的 现象 。 虽 然 我 们 不 需 
要 为 每 个 对 象 定义 一 个 新 的 哈 希 码 ， 但 是 我 们 需要 基于 新 的 哈 希 表 大 小 重新 设计 一 个 压缩 函 
数 。 每 次 重新 哈 希 都 会 将 元 组 分 布 到 整个 新 桶 数组 中 。 当 在 一 个 新 表 上 重新 哈 希 时 ， 新 数组 
大 小 至 少 是 之 前 的 一 倍 ， 这 是 一 个 合理 的 需求 。 事 实 上 ， 如 果 我 们 每 次 重新 哈 硕 时 总 是 把 表 
格 的 大 小 设置 为 原来 的 2 倍 ， 那 么 我 们 将 分 期 承担 重新 哈 希 表格 中 所 有 元 组 的 开销 ， 而 不 是 
在 最 初 插入 这 些 元 组 时 一 次 性 承担 (就 像 动态 数组 ， 见 5.3 节 )。 
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哈 希 表 的 效率 

虽然 哈 希 的 平均 实例 分 析 的 细节 超出 了 本 书 的 范围 ， 但 是 它 的 概率 的 基础 很 容易 理解 。 
如 果 我 们 的 哈 硕 函 数 足 够 好 ， 那 么 所 有 的 元 组 应 该 均匀 分 布 在 桶 数组 的 个 单元 中 。 那 么 ， 
为 了 存储 个 元 组 ， 在 一 个 桶 中 期 望 的 键 的 数量 应 该 是 [ n/N |， 如 果 n 是 O(N)， 那 么 这 个 键 
的 数量 就 是 0(1)。 

由 于 偶尔 的 插入 或 者 删除 操作 后 要 重新 调整 表格 大 小 ， 进 行 周 期 性 重新 哈 希 所 产生 的 
相关 开销 可 以 单独 计算 ,而 这 导致 ”setitem 和 — getitem _ 挫 销 所 增加 的 时 间 复 杂 度 为 
O(1) 的 额外 开销 。 

最 坏 的 情况 下 ， 一 个 比较 差 的 哈 希 函数 会 将 所 有 的 元 组 映射 到 同一 个 桶 中 。 这 将 导致 无 
论 是 使 用 分 离 链 表 还 是 使 用 任何 开放 式 寻 址 策略 的 核心 映射 操作 的 性 能 是 线性 增长 的 ， 因 为 
这 些 操作 的 二 次 序列 探测 仅仅 与 哈 希 码 有 关 。 在 表 10-2 中 汇总 了 这 些 方法 的 开销 情况 。 


X 10-2 采用 未 排序 列表 或 哈 希 表 实 现 map 的 各 个 方法 的 运行 时 间 对 比 。 用 于 表示 map 的 元 组 数 ， 
并 且 假设 桶 数组 所 支持 的 哈 希 表 的 容量 与 map 中 的 元 组 数 成 正比 


WAR 
sill 最 款 情 况 
es 00) 
ETE 0) 


在 实践 中 ， 哈 硕 表 是 实现 map 的 最 有 效 的 方式 之 一 ， 程 序 员 相信 这 样 使 得 映射 的 核心 操作 
的 运行 时 间 是 常量 。Python 的 dict 类 使 用 哈 希 方式 实现 ， 并 是 Python 解释 器 依赖 词典 来 检索 获 
取 给 定 的 命名 空间 内 由 标识 符 引 用 的 对 象 COL 1.10 节 和 2.5 节 )。 基 本 的 命令 c = a+ 在 本 地 词 
典 的 命名 空间 中 两 次 调用 __getitem_ 来 检索 标识 符 a 和 4 的 值 ， 并 有 调用 一 次 ”setitem 
来 在 该 命名 空间 中 存储 与 c 相关 联 的 结果 。 在 我 们 自己 的 算法 分 析 中 ， 简 单 地 假设 这 样 的 字典 
操作 的 运行 时 间 是 常量 ， 独 立 于 命名 空间 中 条 目的 数量 。( 诚 然 ， 在 一 个 典型 的 命名 空间 中 的 条 
目 数量 基本 上 是 一 个 有 界 的 常数 。) 

在 2003 年 的 一 篇 学 术 论 文中 中， 研究 者 讨论 利用 最 坏 情况 下 的 哈 希 表 而 导致 遭受 互联 
网 技术 的 服务 拒绝 (DoS) 攻击 的 可 能 性 。 文 中 提 到 ， 对 于 许多 已 发 表 的 哈 希 码 的 计算 方法 ， 
攻击 者 可 以 预先 计算 大 量 的 中 等 长 度 的 字符 串 ， 并 且 将 所 有 的 字符 串 哈 希 到 相同 的 32 位 哈 
硕 码 上 。( 回 想 一 下 我 们 所 描述 的 所 有 哈 希 方案 ， 除 了 双 哈 硕 ， 如 果 两 个 关键 字 被 映射 到 相 
同 的 哈 硕 码 ， 它 们 在 冲突 解决 方案 中 是 不 可 分 离 的 。) 

在 2011 年 下 半年 ， 另 一 个 研究 团队 给 出 了 这 类 攻击 的 一 个 实现 中。Web 服务 中 允许 
使 用 形 如 ?keyl = vall&key2 = val2&key3 = val3 的 语法 将 一 串 key-value ZURA URL 中 。 
一 般 ， 这 些 key-value 对 会 立即 由 服务 器 存储 在 一 个 map 中 ， 并 假设 在 map 中 存储 时 间 与 条 
目的 数量 呈 线 性 关系 ， 并 对 这 些 参数 的 长 度 和 数量 加 以 限制 。 如 果 所 有 的 键 都 发 生 冲 突 ， 则 
存储 需要 平方 级 的 时 间 (因为 服务 器 需要 进行 大 量 的 处 理工 作 )。 在 2012 FÆR, Python FF 
发 者 发 布 了 一 个 安全 补丁 ， 该 补丁 将 随机 机 制 引 入 到 字符 串 哈 希 码 的 计算 中 ， 这 使 得 翻转 工 
程 师 的 一 组 冲突 字符 串 更 难处 理 。 





10.2.6 Python 哈 希 表 的 实现 


在 这 部 分 ， 我 们 介绍 两 种 哈 希 表 的 实现 ， 一 种 使 用 分 离 链表 ， 而 另 一 种 使 用 包含 线性 探测 
的 开放 寻 址 。 虽 然 这 些 解 决 冲突 的 方法 差异 很 大 ， 但 是 也 有 很 多 共性 。 由 于 这 个 原因 我 们 通 
过 扩展 MapBase 类 (基于 代码 段 10-2 ) 来 定义 一 个 新 的 HashMapBase 类 ( 见 代码 段 10-4 ), 
它 为 我 们 的 两 种 哈 希 实现 提供 了 大 量 的 通用 功能 。HashMapBase 类 主要 的 设计 元 素 是 : 
e 桶 数组 由 一 个 Python 列表 表示 ， 名 为 self. table， 并 且 所 有 的 条 目 初 始 为 None. 
e 我 们 维护 一 个 self._n 的 实例 变量 用 来 表示 当前 存储 在 哈 希 表 中 不 同 元 组 的 个 数 。 
e 如 果 表 格 的 负载 因子 增加 到 超过 0.5， 我 们 会 将 哈 希 表 的 大 小 扩大 2 倍 并 且 将 所 有 元 
组 重新 哈 希 到 新 的 表 中 。 
e 我 们 定义 一 个 _hash_ 函数 的 实用 方法 ， 该 方法 依靠 Python 内 置 哈 希 函数 来 生成 键 的 
哈 希 码 ， 并 用 随机 乘 -加 - 切 分 (MAD) 公式 生成 压缩 函数 。 


代码 段 10-4 ”一 个 哈 希 表 实现 的 基 类 ， 基 于 代码 段 10-2 中 的 MapBase 类 扩展 实现 的 
class HashMapBase(MapBase): 


l 

2  """Abstract base class for map using hash-table with MAD compression." ”" 
3 

4 def . init. (self, cap=11, p=109345121): 

5 """ Create an empty hash-table map." " " 

6 self. table = cap * [ None] 

7 self. n — 0 # number of entries in the map 
8 self. prime — p # prime for MAD compression 

9 self. scale = 1 + randrange(p—1) # scale from 1 to p-1 for MAD 
10 self. shift — randrange(p) # shift from 0 to p-1 for MAD 
11 

12 def hash function(self, k): 

13 return (hash(k)»self. scale 十 self. shift) % self. prime % len(self. table) 
14 

15 def . len. (self): 

16 return self. n 


I8 def . getitem.. (self, k): 
19 j — self. hash. function(k) 
20 return self. bucket getitem(j, k) # may raise KeyError 


22 def .setitem. (self, k, v): 
23 j — self. hash. function(k) 


24 self. bucket. setitem(j, k, v) # subroutine maintains self. n 
25 if self. n > len(self. table) // 2: # keep load factor <= 0.5 

26 self. resize(2 * len(self. table) — 1)  # number 2^x - 1 is often prime 
27 

28 def __delitem __(self, k): 

29 j = self. hash. function(k) 

30 self. bucket delitem(j, k) ## may raise KeyError 

31 self. n —— 1 

32 

33 def _resize(self, c): # resize bucket array to capacity c 

34 old — list(self.items()) # use iteration to record existing items 
35 self. table = c * [None] # then reset table to desired capacity 
36 self. n — 0 # n recomputed during subsequent adds 
37 for (k,v) in old: 

38 self[k] — v # reinsert old key-value pair 


在 基 类 中 ， 如 何 表示 一 个 “ 桶 ”的 任何 概念 都 没有 实现 。 通 过 使 用 单 链 表 ， 每 个 桶 将 是 
一 个 独立 的 结构 。 然 而 ， 使 用 开放 寻 址 策略 时 ， 每 个 桶 都 没有 一 个 有 形 的 容器 ， 且 探测 序列 
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使 桶 得 到 有 效 的 交叉 存 取 。 

在 我 们 的 设计 中 ，HashMapBase 类 假定 有 以 下 抽象 方法 ， 且 每 一 个 方法 必须 在 具体 子 
类 中 实现 。 

e bucket getitem(j, k)。 这 个 方法 在 桶 j 中 搜索 查找 键 为 k 的 元 组 ， 如 果 找 到 了 则 返回 

对 应 的 值 ， 如 果 找 不 到 则 抛 出 KeyError。 

e bucket setitem(j, k, v)。 这 个 方法 将 桶 j FHE k 的 值 修改 为 v。 如 键 k 的 值 已 经 存在 ， 
则 新 的 值 覆盖 已 经 存在 的 值 。 和 否则 ， 将 这 个 新 元 组 插 人 桶 中 ， 并 且 这 个 方法 负责 增 
加 self_n 的 值 。 

e bucket delitem(j, k)。 这 个 方法 删除 桶 j 中 键 为 k 的 元 组 ， 如 果 这 样 的 元 组 不 存在 则 
JH KeyError 异常 (在 这 个 方法 之 后 self_n 的 值 会 减 小 )。 

e _ iter 。 这 是 遍历 map 所 有 键 的 标准 map 方法 。 在 每 个 桶 的 基础 上 我 们 的 基 类 不 

代表 这 个 方法 ， 因 为 在 开放 寻 址 中 桶 并 不 是 固有 不 相交 的 。 

分 离 链 表 

代码 段 10-5 给 出 了 以 ChainHashMap 类 的 形式 实现 含有 分 离 链表 的 哈 希 表 。 它 采用 代 
码 段 10-3 中 UnsortedTableMap 类 的 一 个 实例 来 表示 单个 的 桶 。 

类 中 的 前 三 个 方法 使 用 索引 j 来 访问 在 桶 数组 中 的 潜在 桶 ， 并 检测 表 中 的 元 组 为 空 的 
特殊 情况 。 只 有 当 _bucket_setitem 被 其 他 的 空位 置 调用 时 ,我们 才 需 要 一 个 新 的 桶 。 和 列 
余 的 依赖 于 map 行为 的 功能 已 经 由 单个 的 UnsortedTableMap 实例 所 支持 。 我 们 需要 提前 
一 点 决定 是 否 在 链 上 的 setitem__ 的 应 用 会 引起 map 大 小 的 净 增 加 ( 即 是 否 给 定 的 键 是 
新 的 )。 


代码 段 10-5 ”用 分 离 链 表 实 现 的 具体 哈 希 map 类 


class ChainHashMap(HashMapBase): 
"""Hash map implemented with separate chaining for collision resolution." "" 


> 

3 

4 def .bucket. getitem(self, j, k): 
5 bucket = self. table[j] 


6 if bucket is None: 
7 raise KeyError('Key Error: ' + repr(k)) # no match found 
8 return bucket[k] # may raise KeyError 


10 def bucket. setitem(self, j, k, v): 
11 if self. table[j] is None: 


12 self. table[j] = UnsortedTableMap( ) # bucket is new to the table 
13 oldsize — len(self. table[j]) 

14 self._table[j][k] = v 

15 if len(self._table[j]) > oldsize: # key was new to the table 
16 self. n += 1 # increase overall map size 
17 

18 def bucket delitem(self, j, k): 

19 bucket = self. table[j] 

20 if bucket is None: 

21 raise KeyError('Key Error: ' + repr(k)) # no match found 
22 del bucket [k] # may raise KeyError 
S 

24 def iter. (self): 

25 for bucket in self. table: 

26 if bucket is not None: # a nonempty slot 
27 for key in bucket: 


28 yield key 





线性 探测 

我 们 使 用 含 线性 探测 的 开放 寻 址 实现 ProbeHashMap 类 ， 并 且 在 代码 段 10-6 和 10-7 中 
给 出 详细 描述 。 为 了 支持 删除 操作 ， 我 们 使 用 了 10.2.2 节 介绍 的 技术 ， 该 技术 是 在 已 被 删除 
的 表 的 位 置 上 做 一 个 特殊 的 标记 ， 以 此 来 将 它 和 一 个 总 为 空 的 位 置 区 分 开 来 。 在 实现 中 , 我 
们 声明 了 一 个 类 级 的 属性 _AVAIL 作为 哨兵 。( 因 为 我 们 不 关心 任何 哨兵 类 的 行为 ， 仅 仅 是 
用 来 与 其 他 对 象 相 区 分 ， 所 以 我 们 使 用 一 个 内 置 的 对 象 类 的 实例 。) 


代码 段 10-6 ”用 线性 探测 处 理 冲 突 的 ProbeHashMap 类 的 具体 实现 (在 代码 段 10-7 中 继续 ) 
class ProbeHashMap(HashMapBase): 


| 

2  """Hash map implemented with linear probing for collision resolution." "" 
3  .AVAIL = object( ) # sentinal marks locations of previous deletions 
4 

5 def is available(self, j): 

6 """ Return True if index j is available in table." "" 

7 return self. table[j] is None or self. table[j] is ProbeHashMap._AVAIL 
8 

9 def find slot(self, j, k): 
10 """Search for key k in bucket at index j. 

i] 

12 Return (success, index) tuple, described as follows: 

13 If match was found, success is True and index denotes its location. 

14 If no match found, success is False and index denotes first available slot. 
15 igi: 

16 firstAvail = None 

17 while True: 

18 if self. is available(j): 

19 if firstAvail is None: 
20 firstAvail = j # mark this as first avail 
21 if self. table[j] is None: 
22 return (False, firstAvail) # search has failed 

23 elif k == self. table[j]. key: 

24 return (True, j) # found a match 

25 j= (j + 1) % len(self._table) # keep looking (cyclically) 


开放 寻 址 最 具 挑 战 性 的 一 面 是 在 搬入 或 搜寻 一 个 元 组 的 过 程 中 发 生 冲 突 时 ， 合 理 地 跟 
踪 探 测序 列 。 为 此 ， 我 们 定义 一 个 非 公 共 的 实用 工具 _find_slot， 用 于 在 桶 j 中 搜寻 含有 键 丰 
的 元 组 〈 即 这 里 的 7 是 哈 希 函数 对 键 上 返回 的 索引 )。 


代码 段 10-7 ”线性 探测 处 理 冲突 的 ProbeHashMap 类 的 具体 实现 ( 前 接 代码 段 10-6 中 的 代码 ) 


26 def bucket. getitem(self, j, k): 
27 found, s = self. find slot(j, k) 


28 if not found: 
29 raise KeyError('Key Error: ' + repr(k)) # no match found 
30 return self. table[s]. value 


31 
32 def _bucket_setitem(self, j, k, v): 
33 found, s = self._find_slot(j, k) 


34 if not found: 

35 self. table[s] = self. Item(k,v) # insert new item 
36 self. n += 1 # size has increased 
37 else: 

38 self. table[s]. value — v # overwrite existing 
39 

40 def ..bucket_delitem(self, j, k): 

41 found, s = self.. find. slot(j, k) 


42 if not found: 
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43 raise KeyError('Key Error: ' + repr(k)) # no match found 
44 self._table[s] = ProbeHashMap._AVAIL # mark as vacated 


46 def iter. (self): 


47 for j in range(len(self. table)): # scan entire table 
48 if not self. is available(j): 
49 yield self. table[j]. key 


有 三 个 主要 的 map 操作 都 依赖 于 find slot 程序 实现 。 当 试图 检索 给 定 对 应 的 元 组 时 ， 
我 们 必须 继续 探测 直到 找到 该 键 ， 或 者 找到 表 中 的 一 个 值 为 插 槽 。 我 们 要 一 直 搜 索 直 到 找到 
一 个 _AVAIL 哨兵 为 止 ， 因 为 它 代表 插入 目标 元 组 时 被 填充 的 位 置 。 

当 要 将 一 个 key-value 对 插入 map 时 ， 我 们 必须 先 尝试 找到 一 个 键 为 给 定 值 的 元 组 ， 这 
样 我 们 就 可 以 用 新 的 元 组 覆盖 这 个 查找 到 的 元 组 ， 而 不 是 向 map 中 插入 一 个 新 的 元 组 。 因 此 ， 
必须 在 插入 前 搜索 所 有 的 _AVAIL 哨兵 出 现 的 情况 。 但 是 ， 如 果 没 有 找到 匹配 的 项 ， 我 们 更 倾 
向 于 将 第 一 个 搬 槽 位 置 标记 为 _AVAIL， 如 果 找 到 了 ， 我们 便 把 新 的 元 组 存 人 表 里 。 _find slot 
方法 制定 了 这 个 逻辑 : 持续 搜索 直到 找到 一 个 真正 的 空 插 槽 ， 返 回 第 一 个 可 用 的 插 槽 的 索引 
用 于 插入 操作 。 

4 (ii bucket delitem 删除 一 个 元 组 时 ， 为 了 与 我 们 的 策略 保持 一 致 ， 专 门将 表 的 条 
目 设 为 AVAIL 哨兵 标识 。 


10.3 ”有 序 映 射 


传统 的 映射 ADT 允许 用 户 查 找 与 给 定 键 关联 的 值 ， 这 种 键 的 查找 被 称 为 精确 查找 。 
例如 ， 计 算 机 系统 经 常 维护 已 发 生 事件 的 信息 〈 如 金融 交易 )， 我 们 依据 时 间 戳 来 组 织 
这 些 的 事件 。 如 果 我 们 可 以 假定 时 间 戳 对 于 一 个 特定 的 系统 是 唯一 的 ， 那 么 我 们 就 可 以 以 
时 间 戳 为 键 组 织 一 个 映射 ， 并 将 发 生 在 那个 时 间 的 事件 作为 值 。 一 个 特定 的 时 间 戳 可 以 作 
为 事件 的 引用 标识 ， 这 样 就 可 以 快速 地 从 映射 中 检索 出 该 事件 的 信息 。 然 而 ， 映 射 ADT 
不 提供 任何 方式 来 获得 一 个 按时 间 排 序 的 所 有 已 发 生 事件 的 列表 ， 或 去 查找 最 接近 一 个 
特定 的 时 间 所 发 生 的 事件 。 事实 上 ， 映 射 ADT 基于 哈 希 算法 实现 高 性 能 ， 依 赖 于 键 的 故 
意 分 散 ， 这 使 得 键 在 原 有 的 域 中 彼此 似乎 离 得 很 “ 近 "”， 从 而 使 它们 在 哈 希 表 中 的 分 布 更 
均匀 。 
在 这 一 部 分 ， 我们 介绍 一 个 称 为 有 序 映 射 的 映射 ADT 的 扩展 ， 它 包括 标准 映射 的 所 有 
行为 ， 还 增加 了 以 下 行为 : 
e M.find min): 用 最 小 键 返回 CHE, 值 ) 对 (X None, ARIS). 
e M.find max(): 用 最 大 键 返 回 ( 键 , 1A) 对 (或 None， 如 果 映 射 为 空 ) 。 
e M.find It(k) : 用 严格 小 于 k 的 最 大 键 返回 CHE, 值 ) 对 (或 None， 如 果 没 有 这 样 的 项 
存在 )。 
e M.find le(k) : 用 严格 小 于 等 于 k 的 最 大 键 返 回 ( 键 , 值 ) 对 (或 None， 如 果 没 有 这 样 
的 项 存在 )。 
e M.find gt(k): 用 严格 大 于 的 最 小 的 键 返回 ( 键 , 值 ) 对 (或 None， 如 果 没 有 这 样 的 
项 存在 )。 
e M.find ge (k): 用 严格 大 于 或 等 于 k 的 最 小 的 键 返回 CHE, 1) 对 (或 None， 如 果 没有 
这 样 的 项 存在 )。 


282 103 











e M.find-range(start, stop) : 用 start < = 键 < stop 迭代 遍历 所 有 (BE, (A). WÈ start 指定 
为 None， 从 最 小 的 键 开 始 迭 代 ; 如 果 stop IEW None, Flip RHE RAT 

e iter(M): 根据 自然 顺序 从 最 小 到 最 大 迭代 遍历 映射 中 的 所 有 键 。 

e reversed(M) : 根据 道 序 迭 代 映 射 中 的 所 有 键 +， 这 在 Python 中 是 用 reversed Æ 
实现 的 。 


10.3.1 排序 检索 表 


一 些 数据 结构 能 有 效 地 支持 排序 映射 ADT， 我 们 将 在 10.4 节 和 第 11 章 中 讨论 一 些 先进 
的 技术 。 在 本 节 中 ， 首 先 ， 我 们 从 探索 一 个 简单 有 序 映 射 的 实现 开始 。 我 们 将 映射 的 元 组 存 
储 在 一 个 基于 数组 的 序列 4 中 ， 以 键 的 升序 排列 ,假定 键 是 天 然 定义 的 顺序 (ILEI 10-8 )。 
我 们 将 这 个 映射 实现 为 排序 检索 表 (sorted search table). 





图 10-8 ”一 个 通过 排序 检索 表 实 现 的 映射 。 图 中 我 们 仅 展 示 了 映射 的 键 ， 以 凸显 它们 的 顺序 


对 于 10.1.5 节 中 以 未 排序 表 实 现 映射 的 例子 ， 若 根据 映射 中 的 元 组 数量 按 比 例 增 减 数 
组 的 大 小 ， 其 空间 的 需求 量 是 O(n)。 我 们 坚持 4 基于 数组 存储 元 组 以 及 这 种 表示 的 最 主要 
优势 是 ， 它 支持 用 二 分 查找 算法 来 做 各 种 有 效 的 操作 。 

二 分 查找 和 不 精确 查找 

我 们 在 4.1.3 节 中 介绍 了 二 分 查找 算法 ， 能 检测 一 个 给 定 的 目标 是 否 存储 在 已 排序 的 序 
列 中 。 在 原来 的 介绍 中 (代码 段 4-3 )，binary search 函数 返回 True 或 False 来 检测 指定 目 
标 是 否 被 发 现 。 由 于 这 样 的 方法 可 以 用 来 实现 映射 ADT AY contains _ 方 法， 我 们 可 以 
在 实现 以 各 种 形式 的 不 精确 查找 支持 有 序 映射 ADT 时 ， 应 用 二 分 查找 算法 以 提供 更 多 有 用 
信息 。 

当 实 施 二 分 查找 时 ,一 个 重要 的 实现 是 我 们 可 以 决定 要 查找 的 目标 或 是 临近 目标 的 项 
目的 索引 。 在 查找 成 功 时 ， 一 个 标准 实现 会 决定 所 找到 目标 的 精确 索引 。 在 一 次 失败 的 查找 
中 ， 即 使 目标 没有 被 发 现 ， 算 法 也 会 有 确定 一 组 索引 有 效 地 指定 集合 中 的 元 素 是 小 于 还 是 大 
于 未 找到 的 目标 。 

作为 引入 的 例子 ， 我 们 原来 在 图 4-5 中 的 模拟 ， 展 示 了 一 个 成 功 查找 目标 22 的 二 分 查 
找 ， 在 图 10-8 中 又 用 相同 的 数据 进行 描述 。 如 果 我 们 要 查找 21， 算 法 的 前 四 个 步骤 和 原来 
是 相同 的 ， 后继 的 差异 是 我 们 将 调用 倒置 参数 ， 即 high = 9, low = 10， 这 将 有 效 得 出 未 找 
到 的 目标 值 位 于 值 19 和 22 之 间 。 

实现 

在 代码 段 10-8 ~ 10-10 中 ， 我 们 提出 一 个 支持 排序 表 映 射 ADT 的 SortedTableMap 类 
的 完整 实现 方法 。 该 设计 中 最 值得 注意 的 特性 是 含有 find index 这 个 功能 函数 。 这 个 方法 
使 用 二 分 查找 算法 ,但 是 按照 惯例 ， 返 回 搜索 区 间 中 键 大 于 等 于 的 最 左 侧 元 组 的 索引 。 然 
而 ， 如 果 是 当前 的 键 ， 它 将 返回 键 为 该 值 的 元 组 的 索引 。( 想 一 下 ， 键 在 一 个 映射 中 是 唯一 
的 。) 如 果 键 找 不 到 ， 函 数 返回 搜索 区 间 各 元 组 的 索引 ， 这 个 区 间 位 于 未 能 找到 的 键 所 在 位 
置 附近 。 技 术 上 ， 该 方法 返回 索引 +1 表示 区 间 中 没有 元 组 的 键 大 于 ko 
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代码 段 10-8 SortedTableMap 类 的 实现 (代码 段 10-9 和 10-10 为 后 续 代码 ) 
class Sorted TableMap(MapBase): 


| 

2 """ Map implementation using a sorted table." "" 

3 

4 fp +--+ nonpublic behaviors --—------------------------- 

5 def _find_index(self, k, low, high): 

6 """ Return index of the leftmost item with key greater than or equal to k. 
8 Return high 4- 1 if no such item qualifies. 


10 That is, j will be returned such that: 
1 all items of slice table[low:j] have key < k 


12 all items of slice table[j:high--1] have key >= k 

13 "y 

14 if high < low: 

15 return high + 1 # no element qualifies 
16 else: 

17 mid = (low + high) // 2 

18 if k == self._table[mid]._key: 

19 return mid # found exact match 
20 elif k < self. table[mid]. key: 

21 return self. find index(k, low, mid — 1) # Note: may return mid 
22 else: 

23 return self. find index(k, mid + 1, high) — # answer is right of mid 
24 

25 大 一 一 -一 一 一 一 -一 一- public behaviors —---------------—---------- 

26 def init. (self): 

27 """ Create an empty map." "" 

28 self. table = [ ] 

29 

30 def . len. (self): 

31 """ Return number of items in the map." "" 

32 return len(self. table) 

33 

34 def __getitem __(self, k): 

35 """ Return value associated with key k (raise KeyError if not found).""" 


36 j = self._find_index(k, 0, len(self. table) — 1) 

37 if j == len(self. table) or self. table[j]. key !— k: 
38 raise KeyError('Key Error: ' + repr(k)) 

39 return self. table[j]. value 


在 实现 传统 的 映射 操作 和 新 的 有 序 映射 操作 时 ， 我 们 依赖 这 个 实用 方法 。 方 法 __ 
getitem 、__setitem 和 — delitem 中 的 每 一 个 函数 体 都 从 调用 _find_index 函数 开始 ， 以 
决定 候选 索引 来 匹配 要 找 的 键 。 对 于 getitem _ 方法 ,我 们 简单 地 检查 是 否 包含 确认 目标 存 
在 的 索引 。 而 对 ^ setitem 方法， 我 们 的 目标 是 如 果 找 到 一 个 键 为 上 的 元 组 ， 就 替换 这 个 已 
有 元 组 的 值 ， 否 则 需要 在 映射 中 插 人 一 个 新 的 条 目 。 如 果 find index 返回 的 索引 存在 匹配 的 
索引 ， 就 返回 该 索引 ， 和 否则 返回 将 插 和 人 的 这 个 新 元 组 的 位 置 的 索引 。 对 于 _delitem_ — , An 
找到 目标 索引 ， 则 我 们 将 利用 find index 的 方法 ， 决 定 要 返回 的 元 组 的 位 置 。 

find index 方法 的 作用 与 代码 段 10-10 中 给 出 的 非 精 确 查找 的 实现 方法 是 同样 有 价值 
的 。 对 于 find_ It, find le, find gt fil find ge 方法 的 实现 ， 都 是 从 调用 find index 开始 ， 
如 果 存 在 大 于 等 于 大 的 键 ， 则 将 索引 定位 在 第 一 个 大 于 等 于 下 的 键 的 索引 位 置 。 如 果 这 样 
的 操作 有 效 ， 正 是 我 们 想 要 find ge 实现 的 ， 且 刚好 是 超过 find_It 的 索引 。 对 于 find gt 和 
find le， 需要 一 些 额 外 的 案例 分 析 来 辨别 指定 的 索引 是 否 有 等 于 大 的 键 。 例 如 ， 如 果 指 定 的 
元 组 有 一 个 匹配 的 键 ，find_gt 的 实现 中 ， 要 在 继续 该 过 程 前 对 索引 做 增 量 操作 。( 为 了 简洁 
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起 见 ， 我 们 省 略 了 find le 的 实现 。) 在 所 有 案例 中 ， 我 们 必须 妥善 处 理 边界 情况 ， 如 果 无 法 
找到 一 个 与 所 需 的 属性 相 匹 配 的 键 ， 则 报告 None。 

我 们 实现 find range 的 策略 是 使 用 find index 函数 来 定位 第 一 个 键 三 start 的 元 组 ( 假 
iX start 是 非 None 的 值 )。 据 此 ， 我 们 使 用 while 循环 按 顺 序 逐 个 报告 表 中 的 元 组 直到 达到 
一 个 键 大 于 或 等 于 stop 值 的 元 组 (或 者 直到 到 达 表 的 末尾 元 组 )。 值 得 注意 的 是 ， 如 果 第 一 
个 键 大 于 等 于 start 值 ， 或 者 它 正 好 也 大 于 等 于 stopt, M while 循环 将 迭代 零 次 ， 这 表示 
映射 中 的 一 个 空 范围 ( 即 没 有 元 组 包含 在 指定 的 范围 )。 


代码 段 10-9 SortedTableMap 类 的 实现 (与 代码 段 10-8 和 10.10 共同 组 成 该 实现 ) 


40 def ..setitem.. (self, k, v): 

4l """ Assign value v to key k, overwriting existing value if present." "" 
42 j = self. find index(k, 0, len(self. table) — 1) 

43 if j < len(self. table) and self. table[j]. key == k: 


+ self. table[j]. value = v # reassign value 
45 else: 

46 self._table.insert(j, self. Item(k,v)) # adds new item 
47 

48 def __delitem __(self, k): 

49 """ Remove item associated with key k (raise KeyError if not found).””” 
50 j = self._find_index(k, 0, len(self. table) — 1) 

51 if j == len(self. table) or self. table[j]. key !— k: 

52 raise KeyError('Key Error: ' + repr(k)) 

53 self. table.pop(j) # delete item 
54 

55 def iter. (self): 

56 """ Generate keys of the map ordered from minimum to maximum." "" 
57 for item in self. table: 

58 yield item. key 

50 

60 def . reversed... (self): 

61 """ Generate keys of the map ordered from maximum to minimum." " " 
62 for item in reversed(self. table): 

63 yield item. key 

64 

65 def find min(self): 

66 """ Return (key,value) pair with minimum key (or None if empty). "" 
67 if len(self. table) > 0: 

68 return (self. table[0]. key, self. table[0]. value) 

69 else: 

70 return None 

71 

72 def find max(self): 

73 "=" Return (key,value) pair with maximum key (or None if empty). "" 
74 if len(self. table) > 0: 

75 return (self. table[—1]..key, self. table[—1].. value) 

76 else: 

Tl return None 


代码 段 10-10. SortedTableMap 类 的 实现 (接续 代码 段 10-8 和 10-9 )。 由 于 篇 


幅 限制 ， 我 们 省 略 了 find-le 方法 
78 def find ge(self, k): 


79 """Return (key,value) pair with least key greater than or equal to k.""" 
80 j = self. find index(k, 0, len(self. table) — 1) # j's key >= k 
81 if j < len(self. table): 

82 return (self. table[j].. key, self. table[j]. value) 


83 else: 
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84 return None 

85 

86 def find It(self, k): 

87 """ Return (key,value) pair with greatest key strictly less than k.""" 

88 j = self. find index(k, 0, len(self. table) — 1) # j's key >= k 
89 if j > 0: 

90 return (self. table[j— 1]. key, self. table[j—1]. value) # Note use of j-1 
9] else: 

92 return None 

93 

94 def find. gt(self, k): 

95 """ Return (key,value) pair with least key strictly greater than k.""" 

96 j = self. find index(k, 0, len(self. table) — 1) 4 j's key >= k 
97 if j < len(self. table) and self. table[j]]. key == k: 

OR j+=1 # advanced past match 
99 if j < len(self. table): 

100 return (self. table[j]. key, self. table[j]. value) 

101 else: 

102 return None 


104 def find range(self, start, stop): 
105 """ Iterate all (key,value) pairs such that start <= key < stop. 


107 If start is None, iteration begins with minimum key of map. 
108 If stop is None, iteration continues through the maximum key of map. 


110 if start is None: 


111 j=0 

112 else: 

113 j = self. find index(start, 0, len(self. table) —1) # find first result 
114 while j < len(self. table) and (stop is None or self. table[j]..key < stop): 
115 yield (self. table[j]. key, self. table[j].. value) 

116 jt21 


分 析 

我 们 通过 分 析 SortedTableMap 实现 的 性 能 得 出 结果 。 有 序 映射 ADT (包括 传统 映射 操 
VE) 所 有 方法 的 运行 时 间 如 表 10-3 所 示 。 可 以 清楚 地 看 到 len , find min fll find max 
方法 的 运行 时 间 为 0(1)， 而 且 对 代表 中 的 键 执行 任何 方向 的 迭 都 可 以 在 O(n) 时 间 内 完成 。 


表 10-3 SortedTableMap 实现 的 有 序 映 射 的 性 能 。 我 们 用 n 来 表示 映射 中 在 操 
作 执 行 时 元 组 的 数量 。 空 间 需 求 为 O(n) 


BRE 运行 时 间 
len(M) O(1) 
kin M O(logn) 
M[k] = v 最 坏 情况 下 为 O(n)， 如 果 存 在 k 则 为 O(logn) 
del M[k] 最 坏 情况 下 为 O(n) 
M.find min(), M.find max() O(1) 
M.find_It(k), M.find gt(k) 
M.find le(k), M.find ge(k) ida 
M.find range(start, stop) O(s + logn)， 报 告 s 项 
iter(M), reversed(M) O(n) 


分 析 可 知 ， 各 种 形式 的 查找 都 取决 于 n 个 条 目的 表 上 运行 时 间 为 O(log n) 时 间 的 二 分 
查找 。 这 种 说 法 首次 出 现在 4.2 节 中 的 命题 4-2 中 ， 且 这 一 分 析 结 果 显 然 也 适用 于 我 们 的 


find index 方 法 。 因 此 ， 我 们 断言 对 于 getitem — , find It, find gt, find le fil find ge， 
最 坏 情 况 下 的 运行 时 间 是 O(log n)。 因 为 这 几 个 方法 在 基于 索引 执行 一 些 常 数 数量 的 步 又 
后 ， 都 会 调用 一 次 方法 find index 来 获取 合适 的 结果 。find-range 的 分 析 结 果 更 加 有 趣 ， 它 
先 在 指定 范围 (如果 有 的 话 ) 内 用 二 分 查找 找到 第 一 个 符合 条 件 的 元 组 ， 之 后 ， 执 行 循环 依 
次 报告 后 续 元 组 的 值 ， 每 次 循环 的 时 间 花 销 为 0(1)， 直 至 执行 到 指定 范围 的 末尾 。 如 果 在 
循环 范围 内 报告 了 s 项 元 组 ， 则 该 方法 总 的 运行 时 间 为 O(s + log n)。 

与 高 效 的 查找 操作 形成 对 比 ， 排 序 表 的 更 新 操作 要 花费 相当 多 的 时 间 。 尽 管用 二 分 查找 
可 以 辨别 出 插入 和 删除 等 更 新 操作 发 生 在 哪 一 个 索引 中 ， 在 最 坏 的 情况 下 ， 为 了 维持 表 中 元 
组 的 顺序 ， 表 中 许多 元 素 都 要 调整 位 置 。 特 别 地 ， 洪 在 地 调用 ^ setitem _ 中 的 _table.insert 
和  delitem _ 中 的 _table.pop 在 最 坏 情况 下 的 时 间 复 杂 度 是 O(n)。( 参 考 5.4.1 节 有 关 链 表 
类 中 的 相应 操作 的 讨论 。) 

由 此 可 见 ， 排 序 映 射 主要 是 用 于 预计 含有 查找 较 多 但 更 新 相对 较 少 的 情况 。 


10.3.2 ”有 序 映射 的 两 种 应 用 


在 这 一 部 分 ,我 们 将 探讨 使 用 排序 映射 而 不 是 传统 的 映射 时 特别 有 优势 的 应 用 。 要 运用 
一 个 有 序 映射 ， 键 必须 来 自 一 个 完全 有 序 的 域 。 此 外 ， 为 了 合理 利用 不 精确 查找 和 排序 映射 提 
供 的 范围 查找 的 优势 ， 则 查找 中 相互 邻近 的 键 之 间 有 关联 也 是 有 原因 的 (或 者 说 有 迹 可 循 的 )。 

航班 数据 库 

互联 网 上 有 些 网 站 允许 用 户 特 别 是 有 意向 买 票 的 用 户 查询 航班 数据 库 来 查找 不 同城 市 之 
间 的 航班 。 此 时 ， 用 户 会 指定 出 发 地 和 目的 地 城市 ， 以 及 一 个 确切 的 出 发 日 期 和 时 间 。 为 了 
支持 这 样 的 查询 ， 我 们 可 以 将 航班 数据 模拟 为 一 个 映射 ， 其 中 键 为 Flight 对 象 ， 它 所 包含 的 
域 (field) 对 应 四 个 参数 。 也 就 是 说 ， 键 是 一 个 元 组 。 

k = (origin, destination, date, time) 

关于 航班 的 附加 信息 ， 航 班 号 和 座位 的 数量 分 别 在 first (F) 类 和 coach (Y) 类 中 提供 ， 
飞行 时 间 和 费用 可 以 存储 在 值 对 象 中 。 

找到 一 个 目标 航班 与 给 定 的 查询 条 件 匹 配 并 不 简单 。 尽 管用 户 通常 匹配 出 发 和 目的 城 
市 ， 然 而 出 发 日 期 可 以 有 一 定 的 灵活 性 ， 而 且 在 具体 的 某 一 天 里 出 发 的 时 间 也 可 以 有 灵活 
性 。 我 们 可 以 按 词典 式 排序 的 键 来 查询 。 那 么 ， 实 现 一 个 有 效 的 有 序 映射 ， 将 是 满足 用 户 的 
查询 需求 的 好 方式 。 例 如 ， 给 定 一 个 查询 的 键 K， 我 们 将 调用 find-ge(k) 来 返回 符合 查询 的 
城市 区 间 要 求 ， 并 且 匹 配 出 发 日 期 和 时 间或 是 晚 于 指定 时 间 的 第 一 个 航班 。 更 好 的 方法 是 ， 
利用 组 织 合理 的 键 ， 我 们 使 用 图 数 find-range(k1, k2) 来 找到 所 有 符合 给 定时 间 范 围 的 航班 。 
例如 ， 如 果 k1 = (ORD, PVD, 05May, 09:30), k2 = (ORD, PVD, 05May, 20:00)， 相 应 的 调用 
find-range(k1, k2) 将 获得 以 下 的 键 值 对 序列 : 


(ORD, PVD, 05May, 09:53) : (AA 1840, F5, Y15, 02:05, $251), 
(ORD, PVD, 05May, 13:29) : (AA 600, F2, YO, 02:16, $713), 
(ORD, PVD, 05May, 17:39) : (AA 416, F3, Y9, 02:09, $365), 


(ORD, PVD, 05May, 19:50) : (AA 1828, F9, Y25, 02:13, $186) 


最 大 值 集 

生活 中 充满 了 权衡 。 我 们 经 常 需 要 权衡 所 需 的 性 能 与 价格 。 举 个 例子 ， 假 设 我 们 对 于 维 
护 一 个 对 汽车 的 最 大 速度 和 价格 排序 的 数据 库 感 兴趣 。 我 们 会 允许 拥有 一 定 资金 量 的 用 户 在 
数据 中 查询 ， 以 便 找 到 他 可 以 买 得 起 的 最 快 的 汽车 。 
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我 们 可 以 建立 这 样 一 个 模型 ， 通 过 使 用 一 个 键 值 对 来 模拟 权衡 时 所 使 用 的 两 个 参数 ， 由 


此 ， 在 这 个 例子 中 ,价格 -速度 对 即 是 这 
样 的 两 个 参数 。 需 要 注意 的 是 ， 在 使 用 这 
种 度量 方法 时 ， 有 些 汽 车 是 严格 好 于 其 他 
汽车 的 ， 如 一 个 价格 -速度 对 为 (20 000， 
100) 的 汽车 严格 好 于 价格 -速度 对 为 
(30000, 90) 的 汽车 。 与 此 同时 ， 价 格 - 
速度 对 为 (20000, 100) 的 汽车 可 能 会 好 
于 或 差 于 价格 - 速度 对 (30 000，120 ) 为 
的 汽车 ， 这 将 取决 于 于 我 们 需要 花 多 少 钱 
(如 图 10-9 所 示 )。 

形式 上 ， 如 果 a < c 且 4b = 4,， 我 们 说 
价格 -性 能 对 (a, b) 管辖 着 (e, d), HP 
(c,d) # (a,5b)， 即 第 一 个 价格 -性 能 对 较 
第 二 个 价格 -性 能 对 具有 较 少 的 花费 和 至 
少 一 样 好 的 性 能 。 如 果 (a, b) 不 被 其 他 价 
格 -性 能 对 所 管辖 的 话 ， 则 称 其 为 一 个 最 





图 10-9 用 平面 上 的 点 代表 价格 -性 能 对 的 权衡 。 值 
得 注意 的 是 点 p 严格 好 于 点 c<、d 和 e, 但 是 
可 能 好 于 或 差 于 点 a、b、f、g 和 hh， 这 决 取 
决 于 我 们 想 要 花 多 少 钱 。 因 此 ， 如 果 我 们 想 
要 在 点 集中 加 入 p， 可 以 移 除 点 c<、d 和， 
但 是 不 要 移 除 其 他 的 点 


大 值 对 。 我 们 更 热衷 于 在 价格 - 性 能 对 的 集合 中 维护 的 严格 最 大 值 对 的 集合 。 也 就 是 说 ， 我 
们 将 往 集合 中 加 入 新 的 对 (例如 有 新 车 生产 发 布 时 )， 并 且 会 根据 一 个 给 出 的 美元 价格 4 来 
在 这 个 集合 上 进行 查询 ， 找 出 那些 价格 不 超过 d 美元 的 最 快 的 车 。 


在 有 序 映 射 中 维护 最 大 值 集 


我 们 可 以 在 有 序 映射 中 存储 最 大 值 集 M， 这 样 ， 价 格 即 为 键 (key) W, PERE GERE) 就 
是 值 (value) 域 。 然 后 ， 我 们 可 以 实现 add (c, p) 操作 ， 这 个 操作 用 于 加 入 一 个 新 的 价格 - 
性 能 对 Ce, p), FF ELSE best(c) 操作 ， 用 于 返回 价格 至 多 为 c 的 最 好 的 价格 -性 能 对 ， 如 


代码 段 10-11 所 示 。 


代码 段 10-11 一 个 使 用 有 序 映射 维持 最 大 值 集 的 类 的 实现 


class CostPerformanceDatabase: 


""" Maintain a database of maximal (cost,performance) pairs." "" 


""" Create an empty database." "" 


l 
3 
4 def init. (self): 
5 
6 self..M = SortedTableMap( ) 


8 def best(self, c): 


# or a more efficient sorted map 


9 """ Return (cost,performance) pair with largest cost not exceeding c. 


11 Return None if there is no such pair. 


13 return self. .M.find le(c) 

14 

15 def add(self, c, p): 

16 """ Add new entry with cost c and performance p." "" 

17 # determine if (c,p) is dominated by an existing pair 

18 other = self. M.find le(c) # other is at least as cheap as c 
19 if other is not None and other[1] >= p: # if its performance is as good, 
20 return # (cp) is dominated, so ignore 


21 self. M[c] = p 


# else, add (c,p) to database 
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22 # and now remove any pairs that are dominated by (c.p) 


23 other = self. M.find. gt(c) # other more expensive than c 
24 while other is not None and other[1] <= p: 

25 del self... M[other[0]] 

26 other = self. M.find gt(c) 


不 幸 的 是 ， 如 果 我 们 使 用 SortedTableMap 来 执行 M，add 操作 运行 时 间 为 最 坏 情况 下 
的 O(n)。 男 一 方面 ， 如 果 我 们 使 用 一 个 跳跃 表 ( 接 下 来 介绍 这 个 表 ) 来 实现 M， 则 可 以 在 一 
个 确定 的 O(log n) 时 间 里 执行 best(c) 查询 并 在 确定 的 O + r)log n) 时 间 里 执行 add(c, p) 
更 新 操作 ， 其 中 + 是 从 表 中 移 除 的 点 的 数量 。 


10.4 BERR 


一 种 实现 排序 映射 ADT 的 有 趣 的 数据 结构 是 跳跃 表 。 在 10.3.1 节 中 ， 一 个 排序 数组 允 
许 通 过 二 分 搜索 以 O(log n) 时 间 做 查询 。 不 幸 的 是 ， 由 于 需要 调整 元 素 位 置 ， 排 序数 组 更 新 
操作 的 最 坏 情 况 下 的 运行 时 间 需 要 O(n)。 在 第 7 章 , 我 们 讲 过 只 要 列表 中 的 位 置 是 明确 的 ， 
用 链表 可 以 非常 有 效 地 支持 更 新 操作 。 不 幸 的 是 ,我们 不 能 在 一 个 标准 链表 中 执行 快速 查 
找 。 举 例 来 说 ， 二 分 查找 算法 需要 一 个 有 效 的 手段 来 通过 索引 直接 访问 一 个 元 素 的 序列 。 

跳跃 表 提 供 一 个 聪明 的 折衷 方式 以 有 效 地 支持 查找 和 更 新 操作 。 一 个 映射 M 的 跳跃 表 
S 包 含 一 列表 序列 {S0 Si, …, 5S%}。 每 一 个 列表 S, 依照 键 的 升序 存储 着 M 的 一 个 元 组 子 集 ， 用 
两 个 标注 为 = 和 + oo 的 哨兵 键 追 加 元 组 ， 其 中 - oo 比 每 一 个 可 能 的 捅 入 M 的 键 都 小 ，+ % 
比 每 一 个 可 能 插入 M 的 键 都 大 。 此 外 ， 列 表 S 还 要 满足 下 面 的 条 件 : 

e 列表 So 包含 映射 M 中 的 每 一 项 (包含 -和 +oo)。 

e 对 于 i=1,…,h 一 1， 列表 5; 包含 一 个 列表 S- 1 随机 生成 的 元 组 的 子 集 GRA — 00 Fil + 0), 

e 列表 仅 包含 -oo 和 +oo。 

一 个 跳跃 表 如 图 10-10 所 示 。 这 是 一 个 常用 的 可 视 化 表示 ， 在 列表 5 中 ， 列表 So 在 最 
底部 , 在 So 之 上 有 列表 5S1,…, Sho 并且 ， 我 们 称 h 为 列表 5 的 高 度 。 











图 10-10 存储 有 10 个 元 组 的 跳跃 表 。 为 简单 起 见 ， 我 们 仅 展 示 每 个 元 组 的 键 而 不 包含 其 相关 的 值 


直观 地 ， 列 表 So 建立 时 包含 更 多 或 更 少 的 S 中 的 备 选 元 组 。 当 我 们 在 观察 插入 方法 的 
细节 时 会 发 现 ，5;; | 中 的 元 组 是 从 S 中 随机 挑选 出 来 的 ， 从 S, 挑选 到 Sia 中 的 概率 也 为 1/2, 
大 体 上 ，5; 中 的 每 一 项 都 是 通过 “ 抛 硬币 ”的 方式 挑选 出 来 的 ， 如 果 正 面 朝 上 则 将 该 项 置 于 
Sixt 中。 因此 ， RIKE S 含有 n/2 ATCA, SA n/4 个 元 组 ， 一 般 地 说 就 是 S, 含有 n2 个 
元 组 。 换 言 之 ， 我 们 希望 8 的 高 度 为 log n。 从 一 个 列表 到 下 一 个 列表 ， 对 含有 的 元 组 数 做 折 
半 处 理 并 不 是 强制 地 作为 跳跃 表 的 一 个 明确 的 特性 。 取 而 代 之 的 是 采用 随机 化 的 方法 。 
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生成 数字 的 功能 可 以 视 为 大 多 数 现代 计算 机 内 置 的 随机 数字 ， 因 为 它们 被 广泛 使 用 在 电 
脑 游戏 、 密 码 学 和 计算 机 仿真 中 。 一 些 叫 作 擅 随机 数 生 成 器 的 功能 ， 从 一 颗 初始 种 子 开始 生 
成 类 似 随机 的 数 (参考 1.11 节 中 有 关 随 机 模块 的 讨论 )。 其 他 方法 使 用 硬件 设备 来 从 自然 中 
提取 “ 真 ” 随 机 数 。 无 论 如 何 ， 我 们 假设 从 电脑 中 访问 的 数 对 我 们 的 分 析 而 言 都 是 完全 随机 
的 数 。 

在 数据 结构 和 算法 设计 中 使 用 随机 选择 主要 的 优势 在 于 它 的 结构 和 函数 的 结果 会 变 得 
简单 和 高 效 。 跳 跃 表 的 查找 时 间 和 二 分 查找 一 样 是 限定 在 对 数 级 的 范围 ， 在 插入 和 删除 元 组 
时 ， 它 也 扩展 了 更 新 算法 的 性 能 。 然 而 ， 当 二 分 查找 的 性 能 在 对 于 一 个 排序 表 有 最 坏 情 况 下 
的 范围 时 ， 跳 跃 表 也 有 一 个 预期 的 范围 。 

跳跃 表 在 组 织 它 的 结构 时 ， 通 过 平均 时 间 为 O (log n). 的 查找 和 更 新 方法 做 随机 选择 ， 
其 中 是 映射 中 的 元 组 项 目 数 。 有 趣 的 是 ， 这 里 使 用 的 平均 时 间 复 杂 度 的 概念 不 是 由 输入 的 
键 的 分 布 概率 决定 的 。 取 而 代 之 的 是 ， 它 取决 于 在 实现 用 于 帮助 决定 在 哪 安插 新 条 目的 插入 
函数 中 所 使 用 的 随机 数 生成 器 。 运 行 时 间 是 用 于 插入 条 目的 所 有 可 能 的 随机 数 输 出 的 平均 值 。 

利用 列表 和 树 使 用 的 位 置 抽 象 ， 我们 视 跳 跃 表 为 一 个 水 平 组 织 成 层 (level) EHHE 
成 塔 (tower) 的 二 维 位 置 集合 。 每 个 水 平 层 是 一 个 列表 %， 每 个 垂直 塔 包含 了 存储 着 相同 元 
组 的 位 置 ， 这 些 元 组 跨越 连续 的 列表 。 可 以 使 用 以 下 操作 遍历 跳跃 表 中 的 每 个 位 置 : 

e next(p): 返回 在 同一 水 平 层 位 置 上 紧 接 着 p 的 位 置 。 

e prev(p): 返回 在 同一 水 平 层 位 置 上 在 p 之 前 的 位 置 。 

* below(p): 返回 在 同一 垂直 塔 位 置 上 在 p 下 面 的 位 置 。 

e above(p): 返回 在 同一 垂直 塔 位 置 上 在 p 上 面 的 位 置 。 

我 们 通常 假设 对 于 上 述 操作 ， 如 果 要 求 的 位 置 是 不 存在 的 ， 则 返回 None. ae 
Té. 我们 注意 到 可 以 通过 链 结 构 简 单 地 实现 一 个 跳跃 表 ， 给 定 一 个 跳跃 表 p 的 位 置 ， 
单独 的 遍历 方法 需要 OC) 时 间 。 MUN AUR pie oat 
h， 这 样 的 链表 本 身 也 是 双 链 表 。 


10.4.1 跳跃 表 中 的 查找 和 更 新 操作 


跳跃 表 结 构 提 供 简 单 的 映射 查找 和 更 新 算法 。 事 实 上 ， 所 有 的 跳跃 表 查 找 和 更 新 算法 都 
依赖 于 一 个 简洁 的 SkipSearch 方法 ， 其 需要 一 个 键 k 并 发 现 $S 列表 中 具有 小 于 等 于 键 k (可 
能 为 — o») 的 最 大 键 的 元 组 p 的 位 置 。 

在 跳跃 表 中 查找 

假设 给 出 一 个 搜索 键 上 我 们 开始 SkipSearch 方法 ， 在 跳跃 表 S 中 最 顶层 靠 左 的 位 置 设 
立 一 个 位 置 变量 p， 并 称 为 S 的 开始 位 置 。 这 就 是 说 ， 开 始 位 置 是 在 S, 中 存储 键 为 - oo 的 特 
殊 条 目 。 然 后 我 们 执行 以 下 步骤 (如 图 10-11 所 示 )，key(z) 表示 在 位 置 p 处 的 元 组 的 键 : 

1) 如 果 S.below(p) 为 空 ， 那 么 查找 结束 一 一 我 们 在 底部 并 且 已 经 定位 到 了 小 于 等 于 键 
k 的 最 大 值 对 应 的 元 组 在 5S 中 的 位 置 。 否 则 ， 我 们 通过 设置 p = S.below(p) 从 当前 垂直 塔 位 
置 下 降 到 下 一 个 水 平 层 。 

2) 从 位 置 p 开始 ， 我 们 将 p 向 前 移动 直到 它 在 当前 水 平 层 的 最 右边 的 位 置 ， 这 样 key 
(p) <k, 我 们 把 这 称 为 正 向 扫描 步骤 。 注 意 ， 由 于 每 个 水 平 层 都 包含 键 + oM- o, Ke 
这 一 位 置 总 是 存在 的 。 我 们 在 这 一 水 平 屋 上 执行 扫描 操作 后 p 可 能 仍然 在 它 开始 的 位 置 。 

3) 返回 到 第 1 步 。 
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图 10-11 一 个 在 跳跃 表 中 搜索 的 例子 。 重 点 标记 了 查找 键 SO 时 所 检测 的 位 置 
































我 们 在 代码 段 10-12 中 给 出 了 一 个 跳跃 表 查 询 算 法 SkipSearch 的 伪 代 码 描述 。 鉴 于 这 
种 方法 ,映射 操作 MA] 的 执行 是 通过 处 理 p = SkipSearch(k) 和 判断 是 否 有 key(p) = 大 来 进 
行 的 。 如 果 这 两 个 键 是 相同 的 ， 我 们 将 返回 大 对 应 的 值 ， 否 则 返回 KeyError。 


代码 段 10-12 ”在 跳跃 表 S 中 查找 键 K 的 算法 
Algorithm SkipSearch(k): 
Input: A search key k 
Output: Position p in the bottom list So with the largest key such that key(p) < k 


p = start [begin at start position] 
while below(p) Æ None do 
p = below(p) (drop down] 
while k 7 key(next(p)) do 
p = next(p) {scan forward} 
return p. 


事实 证 明 ， 在 含有 nn 个 条 目的 跳跃 表 中 执行 算法 SkipSearch 时 期 望 的 运行 时 间 是 
O(log n)。 我 们 把 这 个 结论 的 验证 推迟 到 讨论 跳 路 表 更 新 的 实现 方法 之 后 。 可 以 简单 地 从 
SkipSearch(k) 确认 的 位 置 开 始 导航 ， 以 便 在 有 序 映 射 ADT 中 提供 其 他 的 搜索 形式 (如 
find gt, find range). 

跳跃 表 中 的 插入 操作 

映射 操作 MUA] = v 的 执行 是 从 SkipSearch(k) 的 调用 开始 的 。 这 给 了 我 们 小 于 等 于 大 的 
最 大 键 的 底层 元 组 项 的 位 置 p (注意 p 可 能 是 键 为 - oo 的 特殊 元 组 项 )。 如 果 key(p) =k, H 
对 应 的 值 将 被 v 覆盖 。 否 则 ， 我 们 需要 为 元 组 项 (K, v) 创造 一 个 新 的 垂直 塔 。 我 们 快速 地 Sp 
中 将 (k, v) 插 入 p 后 面 的 位 置 。 在 最 底层 插入 新 元 组 项 后 ,我 们 使 用 随机 方式 来 决定 每 个 
新 元 组 的 垂直 塔 高 度 。 我 们 抛 一 枚 硬币 ， 如 果 出 现 反面 ， 那 么 就 停 在 这 里 。 否 则 (出 现 正 
面 )， 我 们 回溯 到 其 前 面 (更 高 ) 的 水 平 层 并 且 在 这 一 层 的 合适 位 置 上 搬入 (k, v)。 我 们 再 次 
抛 硬币 ， 如 果 出 现 的 是 正面 ， 就 去 下 一 个 更 高 的 水 平 层 并 重复 相同 操作 。 同 时 ， 我 们 向 列表 
中 重复 插入 元 组 (k, v) 直到 硬币 抛 出 一 个 反面 。 我 们 将 在 这 个 过 程 中 生成 的 新 元 组 项 (k, v) 
链接 在 一 起 并 创建 一 个 垂直 塔 。 抛 硬币 可 以 由 Python 内 置 的 随机 数 产生 器 模拟 ， 通 过 调用 
randrange (2) 来 产生 随机 数 ， 返 回 0 或 1， 生 成 这 两 个 数 的 概率 均 为 1/2。 

我 们 在 代码 段 10-13 中 给 出 一 个 跳跃 表 S 的 插入 算法 并 且 在 图 10-12 中 作 了 解释 。 算 
法 使 用 insertAfterAbove(p, q, (k, v) 方法 在 位 置 p 之 后 (在 与 p 相同 的 层 ) BEME qg 之 上 
插入 一 个 位 置 存储 元 组 项 (k, v)， 并 且 返 回 这 个 新 位 置 r (并 设置 内 部 引用 ， 以 使 得 next, 
prev, above fil below 方法 可 以 直接 正常 地 为 p、g Flr 工作 )。 一 个 含有 nn 个 条 目的 跳跃 表 
的 插入 算法 的 运行 时 间 为 O(log n)， 这 将 在 10.4.2 节 中 进行 说 明 。 
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代码 段 10-13. ”跳跃 表 的 插入 操作 。 方 法 coinFlip() 返回 “正面 ”或 “反面 "， 每 一 个 值 的 出 现 概率 都 


为 1/2。 实 例 变量 n、h 和 s 分 别 表示 条 目的 数量 、 高 度 和 跳跃 表 的 开始 节点 
Algorithm Skiplnsert(k,v): 
Input: Key k and value v 
Output: Topmost position of the item inserted in the skip list 
p — SkipSearch(k) 


q — None {q will represent top node in new item's tower} 
i--1 
repeat 
i=i+l 
ifi ^h then 
h=h+1 {add a new level to the skip list} 
t = next(s) 
s = insertAfterAbove(None,s,(—oo,None)) {grow leftmost tower} 
insertAfterAbove(s, t, (+00, None)) {grow rightmost tower} 
while above(p) is None do 
p = prev(p) {scan backward} 
p = above(p) {jump up to higher level} 


q = insertAfterAbove(p,q,(k,v)) {increase height of new item's tower} 
until coinFlip() == tails 
n=n+1 
return q 














图 10-12. 在 图 10-10 的 跳跃 表 中 插入 一 个 键 为 42 的 条 目 。 我 们 假设 为 新 条 目 随机 “ 抛 硬币 ”出 现 了 
三 次 正面 ， 紧 随 其 后 的 是 反面 。 突 出 显示 了 访问 过 的 位 置 。 用 粗 线 画 出 了 插入 的 用 于 存 
储 新 条 目的 位 置 ， 并且 它 们 之 前 的 位 置 已 经 被 标记 了 


在 跳跃 表 中 移 除 

跳跃 表 中 的 移 除 算法 和 搜索 、 插 入 算法 是 类 似 的。 事实 上 ， 甚 至 比 插入 算法 更 简单 。 为 
了 执行 映射 操作 del MUA], FQ FCAT ITI SkipSearch(k). WARE p 存储 的 条 目 与 键 
不 同 ， 则 返回 KeyError。 否 则 ， 我 们 将 移 除 p Ap 之 上 所 有 的 位 置 ， 因 为 用 above 方法 来 访 
E S PAME p 开始 的 重 直 塔 更 容易 访问 到 这 个 条 目 。 当 移 除 塔 中 的 各 层 时 ， 我 们 将 重新 建 
立 每 一 个 移 除 位 置 与 水 平 邻居 之 间 的 链接 。 删 除 算法 在 图 10-13 中 冰 述 并 将 它 的 一 个 细节 性 
的 描述 留 作 练 习 R-10.24。 正 如 我 们 在 下 一 个 部 分 中 展示 的 ， 含有 n 个 条 目的 跳跃 表 中 删除 
操作 的 运行 时 间 为 O(log n)。 

然而 ， 在 给 出 这 个 分 析 之 前 ， 我 们 想 讨论 一 下 对 于 跳跃 表 数 据 结构 的 一 些小 的 改进 。 首 
先 ， 我 们 实际 上 不 需要 存储 在 跳跃 表 底 层 之 上 的 层 中 各 值 的 引用 ， 因 为 这 些 层 中 需要 键 的 引 
Ho FXE, 我们 可 以 更 有 效 地 视 垂 直 塔 为 一 个 单独 的 对 象 ， 其 能 够 存储 键 值 对 ， 如 果 垂 直 
塔 到 达 了 5; 层 ， 则 维护 j 的 previous 引用 和 jj 的 next 引用 。 其 次 ， 对 于 水 平 轴 能 够 保持 只 存 
储 next 引用 的 单 向 链表 。 我 们 可 以 通过 自 顶 向 下 、 正 向 扫描 的 更 新 来 执行 插入 和 删除 操作 。 


我 们 将 在 练习 C-10.44 中 探讨 这 种 优化 的 细节 。 这 两 种 优化 都 不 能 提升 跳跃 表 的 超过 一 个 常 
数 因 子 的 性 能 ， 但 是 这 些 进步 在 实践 中 是 有 意义 的 。 事 实 上 ， 实 验 结果 表明 ， 在 实际 中 优化 
跳跃 表 比 AVL 树 和 其 他 的 平衡 搜索 树 都 快 ， 这 将 在 第 11 章 中 讨论 。 


Hr 

















Me dps oe a A lh RUN ie NN h = 
图 10-13 AFA 10-12 中 的 跳跃 表 中 删除 键 为 25 HOR EL. So 中 在 搜索 访问 过 的 位 
置 上 的 条 目 被 加 重 显示 了 。 移 除 的 位 置 用 虚线 画 出 





维护 最 高 水 平 层 

跳跃 表 5 必须 维护 一 个 引用 初始 位 置 作为 实例 变量 (最 顶部、 最 左 方 的 位 置 )， 并 且 必 
须 有 一 个 策略 服务 于 任何 期 望 继 续 越过 5 顶层 的 插入 一 个 新 的 条 目的 插入 操作 。 我 们 可 能 采 
取 两 种 不 同 路 线 的 方法 ,每 一 种 都 有 其 优点 。 

一 种 可 能 的 方法 是 限制 最 高 层 h 保 持 在 某 一 个 固定 值 ， 这 是 一 个 n 的 函数 ,代表 当前 
map 的 条 目 数 。( 从 分 析 中 我 们 看 到 及 = max{10, 2|log n |} 是 一 个 合理 选择 ， 并 且 挑 选 h=3 
[long n | 更 安全 ,) 实现 这 个 函数 选择 意味 着 我 们 必须 修改 插入 算法 ， 这 样 就 可 以 在 一 旦 到 达 
最 高 层 时 停止 一 个 新 位 置 的 插入 (除非 [logn | < [og (n =- 1) |， 在 这 种 情况 下 ， 由 于 高 度 的 
边界 在 增长 ， 我 们 至 少 可 以 再 多 达到 一 个 水 平 层 )。 

另 一 种 可 能 的 方法 是 ， 只 要 头 部 不 断 地 从 随机 数 生 成 器 获得 返回 值 ， 就 让 插 人 操作 持续 
插入 新 的 位 置 。 代 码 段 10-13 中 的 SkipInsert 算法 就 是 采用 的 这 种 方法 。 正 如 我 们 展示 的 跳 
跃 表 的 分 析 那 样 ， 插 入 一 个 水 平 层 的 时 间 复 杂 度 大 于 O(log n) 的 概率 非常 低 ， 所 以 这 种 方案 
可 以 正常 工作 。 

以 上 任何 一 种 方法 都 需要 O(log n) 的 时 间 复 杂 度 来 执行 查找 、 插 入 和 移 除 操作 。 这 些 我 
们 将 在 下 一 小 节 进 行 说 明 。 


10.4.2 ”跳跃 表 的 概率 分 析 * 


正如 我 们 上 面 所 讨论 的 ， 跳 跃 表 为 有 序 映 射 提供 了 一 个 简单 实现 方法 。 从 最 坏 的 情况 来 
看 ， 跳 跃 表 并 不 是 一 个 较 好 的 数据 结构 。 事 实 上 ， 如 果 我 们 不 能 正式 地 阻止 一 个 插入 持续 通 
过 当前 的 最 高 水 平 层 ， 则 插入 算法 可 能 会 进入 一 个 接近 无 限 的 循环 (实际 上 不 是 一 个 无 限 循 
环 ， 因 为 硬币 永远 出 现 正 面 的 概率 是 0)。 此 外 ,我 们 不 能 在 不 耗 尽 内 存 的 情况 向 一 个 列表 
中 无 限 地 添加 新 的 位 置 。 在 任何 情况 下 ， 如 果 我 们 在 最 高 层 h 中 停止 位 置 插入 操作 ， 则 在 一 
个 条 目 数 为 n、 高 度 为 h 的 跳跃 表 S 中 运行 ”getitem ~ setitem 和 delitem _ 的 操 
作 时 间 是 O(n + 有 )。 这 种 最 坏 的 情况 在 每 一 个 条 目的 垂直 塔 到 达 层 h -1 时 出 现 , 这 里 为 5S 
的 高 度 。 然 而 ， 发 生 这 种 情况 的 概率 很 低 。 根 据 这 个 最 坏 情况 ， 我们 可 以 得 出 这 样 的 结论 
跳跃 表 结 构 严 格 差 于 本 章 前 面 所 讨论 过 的 其 他 映射 实现 方法 。 但 对 于 这 种 最 坏 情况 下 的 行为 
总 体 上 被 高 估 了 ， 这 样 的 分 析 并 不 准确 。 
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跳 过 跳跃 表 的 高 度 

由 于 搬入 步 又 包含 随机 化 的 内 容 ， 因 此 更 精确 的 跳跃 表 应 该 适当 考虑 概率 的 问题 。 首 
先 ， 关 于 完备 和 彻底 的 概率 分 析 可 能 需要 深入 的 数学 知识 (在 数据 结构 研究 文献 中 有 一 些 深 
和 分析 )， 这 似乎 是 首要 的 任务 。 幸 运 的 是 ， 这 样 的 分 析 没 有 必要 了 解 跳跃 表 的 预期 渐 近 行 
为 。 下 面 我 们 只 用 概率 论 的 基本 概念 给 出 非 正 式 的 和 直观 的 概率 分 析 。 

首先 ， 让 我 们 确定 含 个 条 目的 跳跃 表 的 高 度 h 的 期 望 值 (假设 我 们 不 会 提前 终止 插入 
操作 )。 一 个 给 定 的 条 目 中 垂直 塔 的 高 度 i o 1 的 概率 等 于 抛 一 枚 硬币 连续 i 次 出 现 正面 的 概 
率 ， 即 概率 为 /2。 因 此 ， 水 平 层 i 至少 有 一 个 位 置 的 概率 P; 至 多 为 


Be 
om 


因为 任何 对 个 不 同 的 事件 同时 发 生 的 概率 最 多 是 每 一 个 事件 发 生 的 概率 的 总 和 。 
5 的 高 度 为 h 的 概率 与 层 i 至 少 有 一 个 位 置 的 概率 相同 ， 也 就 是 说 ， 它 是 不 超过 Pi 的 。 
这 意味 着 hh 大 于 3log n 的 可 能 性 至 多 为 


P, 


n 
nm mn 


例如 ， 如 果 = 1000， 这 个 概率 是 一 百 万 分 之 一 。 更 一 般 的 说 法 是 ， 给 出 一 个 常量 c> 1, h 
KF clog n 的 概率 至 多 为 1/n*“'。 也 就 是 说 ，h 小 于 c log nn 的 概率 至 少 为 1- Un ^. A, 
S 的 高 度 为 h 的 概率 很 可 能 为 O(log n). 

分 析 跳 跃 表 搜 索 时 间 

接 下 来 ,考虑 一 个 跳跃 表 5 在 搜索 时 的 运行 时 间 ， 回 想 一 下 ， 这 样 一 个 搜索 包含 两 层 炭 
套 的 while 循环 。 只 要 下 一 个 键 不 大 于 搜索 键 K， 内 循环 就 一 直 在 S 的 一 个 水 平 层 上 执行 正 
向 扫描 ， 且 外 循环 会 降 到 下 一 层 ， 重 复 这 种 扫描 。 由 于 5 的 高 度 有 hh 为 O(log n) 的 概率 较 高 ， 
降 层 循环 的 步骤 的 次 数 为 O(log n) 的 概率 也 较 高 。 

我 们 还 没有 限制 向 前 的 步骤 。 令 ni 为 在 层 i 上 正 向 扫描 时 扫描 过 的 键 的 数量 。 

可 以 看 到 ， 从 开始 位 置 之 后 ， 在 层 i 中 正 疝 扫描 扫描 过 的 每 一 个 额外 的 键 都 不 能 同时 
属于 层 i+ 1。 如 果 任 何 一 个 键 在 前 一 层 ， 我 们 将 在 扫描 前 一 层 的 过 程 中 过 到 这 个 键 。 因 此 ， 
任何 键 被 计数 为 n; 的 概率 都 是 12。 然 而 , 六 的 期 望 值 与 抛 硬币 时 出 现 正 面 之 前 需要 抛 的 次 
数 是 相等 的 。 这 个 期 望 值 是 2。 因 此 ， 在 任何 层 i 正 向 扫描 的 期 望 时 间 都 为 0(1)， 因 为 S 很 
可 能 有 O(log n) JZ, S 中 的 搜索 预期 时 间 也 就 是 O(log n)。 通 过 类 似 的 分 析 ， 我 们 可 以 得 出 
插入 或 删除 操作 的 预期 运行 时 间 为 O(log n)。 

跳跃 表 中 的 空间 使 用 

最 后 ， 让 我 们 看 一 下 包含 n 个 条 目的 跳跃 表 5 的 空间 需求 。 正 如 我 们 在 上 面 观察 到 的 ， 
Z i 可 能 含有 的 位 置 数 为 n/2'， 这 意味 着 5 中 准确 的 位 置 总 数 为 


n 
< 
logn 23 logn 











因此 ，S 预期 的 空间 需求 为 O(n)。 
X 10-4 总 结 了 跳跃 表 实 现 的 排序 表 的 性 能 。 


表 10-4 ”通过 跳跃 表 实 现 有 序 映射 的 性 能 。 我 们 使 用 n 来 表示 执行 操作 时 字典 中 
条 目的 数量 ， 预 期 的 空间 需求 为 O(n) 


操 dt 运行 时 间 
len(M) O(1) 
k in M 期 望 为 O(log n) 
M[k] = v 期 望 为 O(log n) 
del M[k] 期 望 为 O(log n) 
M.find min(), M.find max() O(1) 
M.find It(k), M.find gt(k . 
Seek phe cesar aA Oflog 2) 
M.find_range(start, stop) 期 望 为 O(s + logn), 报告 s 
iter(M), reversed(M) O(n) 


10.5 集合、 多 集 和 多 映射 
我 们 通过 分 析 几 个 和 映射 ADT 密切 相关 并 且 用 类 似 映射 的 数据 结构 实现 的 补充 抽象 来 


总 结 这 一 章 。 
e 集合 (set) 是 无 序 元 素 的 一 个 聚集 ， 这 些 元 素 不 重复 并 且 通 常 支持 高 效 的 成 员 检 测 。 
从 本 质 上 说 ,集合 中 的 元 素 像 是 映射 中 的 键 ,但 是 它 没有 任何 的 附加 值 。 
e 多 集 (multiset)( 也 称 为 包 (bag) ) 是 一 个 允许 有 重复 元 素 的 类 集合 (set-like) AH. 
e 多 映射 (multimap) 与 传统 的 映射 类 似 ， 在 映射 中 它 将 键 和 值 联系 起 来 。 然 而 ， 在 多 


映射 中 多 个 值 可 以 映射 到 同一 个 键 上 。 


10.5.1 集合 的 抽象 数据 类 型 


Python 通过 内 置 类 frozenset 和 set 为 表示 集合 中 的 数学 概念 提供 支持 ， 就 像 在 第 1 章 
中 讨论 的 ， 内 置 类 frozenset 是 一 个 不 可 变 的 形式 。 这 两 个 类 都 是 使 用 Python 中 的 哈 希 表 来 
实现 的 。 
Python 的 collections 模块 定义 了 本 质 上 反映 这 些 内 置 类 的 抽象 基 类 。 然 而 对 于 名 字 的 
选择 却 是 和 直觉 不 同 的 ， 尽 管 抽象 基 类 collections.MutableSet 类 似 于 具体 的 set 类 ， 但 是 抽 
象 基 类 collections.Set 匹配 具体 的 frozenset 类 。 
在 讨论 中 ， 我们 把 “集合 ADT” 等 同 于 内 置 set 类 的 行为 (就 是 collections.MutableSet 
基 类 )。 首 先 ， 我 们 列 出 了 在 集合 5 中 最 基本 的 五 个 行为 : 
e S.add(e): 向 集合 中 添加 元 素 e。 如 果 集 合 中 已 经 包含 了 元 素 e， 则 该 行为 无 效 。 
e S.discard(e) : 如 果 集 合 中 包含 元 素 e， 则 从 集合 中 删除 该 元 素 。 如 果 集 合 中 不 包含 元 
素 e， 则 该 行为 无 效 。 

e cin S: 如 果 集 合 中 包含 元 素 e， 则 返回 True， 该 行为 是 通过 特定 的 方法 contains _ 
来 实现 的 。 

e len(S): 返回 集合 S 中 的 元 素 个 数 。 在 Python 中 ， 它 是 通过 特定 的 方法 ”len KS 
现 的 。 
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e iter(S) : 生成 集合 中 所 有 元 素 的 迭代 。 在 Python 中 ， 它 是 通过 特定 的 方法 __iter _ 
来 实现 的 。 
在 下 一 节 中 ， 我 们 将 看 到 上 述 五 种 方法 足以 派生 出 一 个 集合 的 其 他 所 有 行为 。 这 些 剩余 
的 行为 可 以 自然 地 做 如 下 归纳 。 首 先 ， 我 们 描述 下 列 从 一 个 集合 中 删除 一 个 或 多 个 元 素 的 补 
充 操作 : 
e S.remove(e) : 将 元 素 e 从 集合 中 删除 。 如 果 集 合 中 不 包含 元 素 e， 将 会 产生 一 个 错误 


KeyError, 
e S.popO : 从 集合 中 删除 并 返回 一 个 任意 元 素 。 如 果 集 合 为 空 ， 将 会 产生 一 个 错误 
KeyError。 


e S.clear(): 删除 集合 中 的 所 有 元 素 。 
下 一 组 行为 将 在 两 个 集合 之 间 进 行 布尔 比较 。 
e S=T: 如 果 集 合 S 和 集合 T 的 内 容 相 同 ， 返 回 True. 
e S!-T: 如 果 集 合 S 和 集合 T 的 内 容 不 相同 ， 返 回 True. 
e S<=T: 如 果 集 合 $ 是 集合 T 的 子 集 ， 返 回 True. 
e S<T: 如 果 集 合 S 是 集合 T 的 真子 集 ， 返 回 True. 
e S>=T: WRES T 是 集合 $ 的 子 集 ， 返 回 True, 
e S» T: WRES TERA $ 的 真子 集 ， 返 回 True, 
e Sisdisjoint(T): 如 果 集 合 S 和 集合 没有 公共 元 素 ， 返 回 True. 
最 后 ， 还 有 一 些 基 于 经 典 集合 理论 操作 的 其 他 行为 ， 它 们 要 么 是 更 新 现 有 的 集合 ， 要 人 么 
是 计算 一 个 新 的 集合 实例 。 
e S|T: 返回 一 个 表示 集合 S 和 T 的 并 集 的 新 集合 。 
e S|- T: 将 SS 更 新 为 集合 S AT WIFE. 
eS&T: 返回 一 个 表示 集合 S 和 T 的 交集 的 新 集合 。 
eS&-T: 将 S 更 新 为 集合 S 和 TT 的 交集 。 
e ST: 返回 一 个 表示 集合 S 和 T 的 对 称 差 集 的 新 集合 ， 也 就 是 说 ， 一 组 仅 属 于 集合 
S 或 者 仅 属于 集合 T 的 元 素 。 
S^-T: 将 集合 S 更 新 为 它 本 身 和 集合 T 的 对 称 差 集 。 
eS-T: 返回 一 个 新 的 集合 ， 该 集合 中 包含 集合 S 中 的 元 素 ， 但 不 包含 集合 T 中 的 
元 素 。 
e S-- T: 将 S 更 新 为 删除 集合 S 中 与 工 相同 的 元 素 。 


10.5.2 Python 的 MutableSet 抽象 基 类 


为 了 辅助 自 定义 set 类 的 设计 ，Python 的 collections 模块 提供 了 一 个 MutableSet 抽象 
基 类 (就 像 在 10.1.3 节 中 讨论 的 ， 提 供 MutableMapping 抽象 基 类 )。MutableSet 抽象 基 类 为 
10.5.1 节 中 所 描述 的 除了 五 种 核心 行为 (add, discard, contains , len , iter ) 以 
外 的 所 有 方法 提供 了 具体 的 实现 方法 ， 因 为 这 五 个 核心 行为 必须 通过 任意 具体 的 子 类 来 实 
现 。 本 设计 是 被 称 为 模板 方法 模式 的 一 个 例子 ， 因 为 MutableSet 类 的 具体 方法 依赖 于 接 下 
来 的 将 由 子 类 提供 的 假定 抽象 方法 。 

为 了 解释 说 明 ， 我 们 对 一 些 MutableSet 基 类 的 衍生 方法 的 实现 进行 了 研究 。 例 如 ， 为 
了 确定 一 个 集合 是 否 是 另 一 个 集合 的 子 集 ， 我 们 必须 验证 两 个 条 件 : 一 个 适合 的 子 集 大 小 必 
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须 严 格 地 小 于 它 的 超 集 ， 并 且 子 集 的 每 个 元 素 必 须 包 含 在 超 集中 。 代 码 段 10-14 SEF IR TE 
辑 实现 了 相应 的 方法 dvo. 


代码 段 10-14 — fh MutableSet. |t _ 方法 的 实现 ， 该 方法 检测 一 个 集合 是 否 


恰好 是 另 一 个 集合 的 子 集 
def |t (self, other): # supports syntax S < T 


""" Return true if this set is a proper subset of other." "" 
if len(self) >= len(other): 


return False # proper subset must have strictly smaller size 
for e in self: 
if e not in other: 
return False # not a subset since element missing from other 
return True # success; all conditions are met 


在 另外 一 个 例子 中 ， 我 们 考虑 两 个 集合 并 集 的 计算 。 集 合 ADT 计算 一 个 并 集 包 括 了 两 
个 形式 。 语 法 S17T 应 该 产生 一 个 新 的 集合 ， 该 集合 的 内 容 等 于 现 有 集合 S 和 了 的 并 集 。 这 
个 操作 是 通过 Python 中 的 特殊 方法 or _ 实现 的 。 另 一 个 语法 $| = 了 用 来 更 新 现 有 的 集 
合 S， 使 之 成 为 它 本 身 和 集合 了 的 并 集 。 因 此 ， 集 合 了 之 前 所 有 不 包含 在 集合 8 中 的 元 素 应 
该 被 添加 到 集合 S 中 。 我 们 注意 到 可 以 比 使 用 语法 $= S17T 的 形式 ， 更 有 效 地 实现 这 种 “in- 
place ”操作 ， 其 中 标识 符 8 被 分 配给 表示 并 集 的 新 集合 实例 。 为 方便 起 见 , Python 内 置 的 集 
合 类 支持 这 些 行 为 的 指定 版 本 , S.union(T) FAF S| T, m S.update(T) EMF S| =T (Am, 
MutableSet 抽象 基 类 没有 正式 地 支持 这 些 指定 版 本 )。 

在 代码 段 10-15 中 ， 以 的 特定 方法 or _ 的 形式 给 出 计算 新 集合 作为 男 外 两 个 集合 并 
集 的 实现 方法 。 在 这 个 实现 方法 中 一 个 重要 的 细节 是 结果 集合 的 实例 化 。 由 于 MutableSet 
类 被 设计 成 一 个 抽象 基 类 ， 实 例 必 须 属 于 一 个 具体 的 子 类 。 当 计算 这 样 两 个 具体 实例 的 并 
集 的 时 候 ， 结 果 可 能 是 一 个 和 操作 数 相同 的 类 的 实例 。 函 数 type(self) 返回 一 个 指向 标记 为 
self 的 实例 的 实际 类 (actual class) 的 引用 ， 并 且 在 表达 式 type(self)O 中 ， 后 面 的 括号 里 为 
这 个 类 调用 默认 的 构造 函数 。 


代码 段 10-15  MutableSet. or ”方法 的 实现 ， 该 方法 计算 两 个 集合 的 并 集 


def . or. (self, other): # supports syntax S | T 
"""Return a new set that is the union of two existing sets." "" 
result — type(self)( ) # create new instance of concrete class 
for e in self: 
result.add(e) 
for e in other: 
result.add(e) 
return result 


在 效率 方面 ， 我 们 分 析 S | 7 这 样 的 集合 运算 ,其 中 用 n 表示 5 的 大 小 ， 用 m 表示 集合 
T 的 大 小 。 如 果 用 哈 希 实现 具体 的 集合 ， 则 代码 段 10-15 中 的 实现 方法 预期 的 运行 时 间 是 
O(m + n)， 因 为 它 在 两 个 集合 上 循环 ， 因 此 在 一 个 包含 检查 和 一 个 向 结果 集合 中 的 插入 操作 
的 执行 时 间 都 是 常数 。 

在 代码 段 10-16 中 ,给 出 了 支持 语法 S| = 7 的 特殊 方法 ior “in-place” 版 本 的 集 
合并 操作 的 实现 方法 。 注 意 ， 在 这 种 情况 下 ， 我 们 不 创建 新 的 集合 实例 ， 而 是 更 新 返回 现 有 
的 集合 ， 更 改 集合 的 内 容 以 反映 集合 并 操作 。 这 个 版 本 的 并 集 实现 预计 的 运行 时 间 为 On), 
这 里 的 m 是 第 二 个 集合 的 大 小 ， 因 为 我 们 只 需要 在 第 二 个 集合 中 循环 。 
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代码 段 10-16 MutableSet. ior _ 方法 的 实现 ， 它 执行 一 个 集合 和 另 一 个 集合 的 in-place 并 集 


def __ior__(self, other): # supports syntax S |= T 
""" Modify this set to be the union of itself an another set." "" 
for e in other: 
self. add(e) 


return self # technical requirement of in-place operator 


10.5.3 集合 、 多 集 和 多 映射 的 实现 

集合 

虽然 集合 和 映射 有 完全 不 同 的 公共 接口 ， 但 是 它们 真 的 很 相似 。 一 个 集合 是 一 个 简单 
的 映射 ， 这 个 映射 中 键 没有 相关 联 的 值 。 任 何 一 个 数据 结构 实现 的 映射 都 可 以 改造 以 实现 集 
tr ADT， 并 能 够 保障 具有 相似 的 性 能 。 我 们 可 以 通过 存储 集合 元 素 作 为 键 ， 并 使 用 None 作 
为 一 个 不 相关 的 值 来 随便 地 应 用 任何 映射 类 实现 集合 类 , 但 是 这 样 的 实现 造成 了 不 必要 的 浪 
费 。 一 个 有 效 的 集合 类 的 实现 方法 应 该 放弃 在 MapBase 类 中 使 用 的 _Item 组 合 模式 ， 而 在 
数据 结构 中 直接 存储 集合 元 素 。 

多 集 

在 多 集中 同一 个 元 素 可 能 出 现 多 次 。 所 有 我 们 见 过 的 数据 结构 都 可 以 重新 实现 ， 并 人 允 
许 重复 的 元 素 作 为 不 同 的 元 素 分 别 独 立 存 在 。 人 然而， 另外 一 种 实现 多 集 的 方法 是 使 用 映射， 
该 映射 的 键 是 多 集中 的 元 素 (不 同 的 )， 而 键 所 相关 联 的 值 是 这 个 元 素 在 多 集中 出 现 的 次 数 。 
事实 上 ， 这 本 质 上 与 我 们 在 10.1.2 节 中 所 做 的 计算 文档 中 单词 出 现 次 数 的 例子 相同 。 

Python 的 标准 collections 模块 包括 一 个 名 为 Counter 类 的 定义 ， 它 本 质 上 是 一 个 多 集 。 
形式 上 ，Counter 类 是 dict 类 的 一 个 子 类 ， 它 所 包含 的 值 最 好 都 是 整数 ， 并 且 包 含 一 些 类 似 于 
most common(n) 方法 的 附加 函数 ， 这 里 的 函数 most common(n) 返回 前 nn 个 最 常见 元 素 的 列 
表 。 标 准 iter ”方法 对 每 个 元 素 只 报告 一 次 (因为 它们 形式 上 是 字典 的 键 )。 这 里 还 有 另外 
一 个 名 为 elements() 的 方法 ， 该 方法 从 头 到 尾 地 按 元 素 的 计数 来 重复 遍历 多 集 的 每 个 元 素 。 

多 映射 

虽然 在 Python 的 标准 库 中 没有 多 映射 , 但 是 一 个 常见 的 实现 方法 是 使 用 一 个 标准 映 
射 ， 该 映射 与 值 相 关联 的 键 是 一 个 本 身 存 储 任意 数量 的 关联 值 的 容器 类 。 在 代码 段 10-17 
中 ,我 们 举 这 样 的 一 个 MultiMap 类 的 例子 。 我 们 用 标准 dict 类 实现 映射 ， 并 且 使 用 值 的 列 
表 作为 字典 的 组 合 值 。 我 们 设计 该 类 ， 以 使 得 不 同 的 映射 可 以 通过 简单 地 重 写 第 三 行 的 类 级 
MapType 属性 内 容 的 方法 进行 实现 。 


代码 段 10-17 一 个 使 用 dict 作 存 储 的 MultiMap 的 实现 。 返 回 self. n Bg len - 


方法 已 从 这 个 列表 中 省 略 
| class MultiMap: 
2  """A multimap class built upon use of an underlying map for storage." " 
3 _MapType = dict # Map type; can be redefined by subciass 
4 
5 def init. (self): 
6 """ Create a new empty multimap instance." "" 
7 self. map — self. MapType( ) # create map instance for storage 
8 self. n — 0 


10 def .iter. (self): 
11 """Iterate through ali (k,v) pairs in multimap." "" 
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for k,secondary in self. map.items( ): 
for v in secondary: 
yield (k,v) 


def add(self, k, v): 
""" Add pair (k,v) to multimap.""" 
container = self. map.setdefault(k, [ ]) # create empty list, if needed 
container.append(v) 
self. n += 1 


def pop(self, k): 
"Remove and return arbitrary (k,v) with key k (or raise KeyError) 
secondary — self. map[k] # may raise KeyError 
v — secondary.pop( ) 
if len(secondary) == 0: 
del self._map[k] # no pairs left 
self. n —— 
return (k, v) 


def find(self, k): 
""" Return arbitrary (k,v) pair with given key (or raise KeyError) 
secondary — self. map[k] # may raise KeyError 
return (k, secondary[0]) 


"nun 


def find. all(self, k): 
""" Generate iteration of all (k,v) pairs with given key." "" 
secondary = self. map.get(k, [ ]) # empty list, by default 
for v in secondary: 
yield (k,v) 


练习 


请 访问 www.wiley.com/college/goodrich 以 获得 练习 帮助 。 


巩固 
R-10.1 


R-10.2 


R-10.3 


R-10.4 


R-10.5 


R-10.6 


R-10.7 


R-10.8 


R-10.9 


只 依靠 类 的 五 个 主要 的 抽象 方法 ， 在 MutableMapping 类 的 背景 下 给 出 一 个 具体 的 pop 方法 的 
实现 方法 。 

只 依靠 五 个 主要 的 类 的 抽象 方法 ， 在 MutableMapping 类 的 背景 下 给 出 一 个 具体 的 items() 方 
法 的 实现 方法 。 如 果 直 接应 用 UnsortedTableMap 子 类 ， 它 的 运行 时 间 将 会 是 多 少 ? 

直接 在 UnsortedTableMap 类 中 给 出 一 个 具体 的 items() 方法 的 实现 方法 ， 要 确保 整个 迭代 运 
行 时 间 在 O(n) 之 内 。 

对 一 个 用 UnsortedTableMap 类 实现 的 初始 为 空 的 映射 M 插 入 nn 个 键 - 值 对 ， 最 坏 情 况 下 的 运 
行 时 间 是 多 少 ? 

使 用 7.4 节 中 的 PositionalList 类 而 不 是 Python 列表 ， 重 新 实现 10.1.5 节 中 的 UnsortedTableMap 类 。 
哪 一 个 哈 希 表 冲 突 处 理 方案 可 以 允许 一 个 负载 因子 在 1 以 上 ， 哪 一 个 不 能 ? 

列表 和 树 的 Position 类 支持 ”eq _ 方法 ， 如 果 两 个 位 置 实例 是 指向 同一 个 结构 中 的 同一 个 基 
本 节点 ,那么 这 两 个 位 置 实例 被 认为 是 等 价 的 。 人 允许 位 置 作 为 哈 希 表 中 的 键 ， 必须 有 一 个 和 
等 价 的 概念 一 致 的 __hash — 方法 的 定义 。 请 给 出 一 个 这 样 的 __hash 方法。 

对 于 一 个 车 辆 识别 码 来 说 什么 是 好 的 哈 希 码 ? 该 车 辆 识别 码 是 形 为 “9X9XX99X9XX999999” 
的 一 串 数字 和 字母 ， 其 中 “9” 代 表 一 个 数字 ,“X” 代 表 一 个 字母 。 

使 用 哈 希 函数 h(i) = (3i+ 5) mod 11 画 出 一 个 含有 11 个 条 目的 哈 希 表 ， 用 来 映射 键 12、44、 
13, 88, 23, 94, 11, 39, 20, 16 和 5， 假设 链 已 经 处 理 了 冲突 。 
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R-10.10 
R-10.11 
R-10.12 


R-10.13 


R-10.14 
R-10.15 


R-10.16 
R-10.17 
R-10.18 
R-10.19 


R-10.20 
R-10.21 


R-10.22 


R-10.23 


R-10.24 
R-10.25 


R-10.26 


R-10.27 


创新 
C-10.28 


假设 线性 探测 已 经 处 理 了 冲突 ， 那么 上 题 的 结果 是 什么 ? 

假设 二 次 探测 已 经 处 理 了 冲突 ， 演 示 练 习 R-10.9 的 结果 ， 直 到 该 方法 失败 的 位 置 。 

当 二 次 哈 希 已 经 使 用 二 次 哈 希 函数 h(k) = 7 — (k mod 7) 处 理 了 冲突 时 ,练习 R-10.9 的 结果 是 
什么 ? 

假设 链表 已 经 处 理 了 冲突 ， 把 个 条 目 置 于 初始 为 空 的 哈 希 表 中 最 坏 情 况 下 的 时 间 是 多 少 ? 
最 好 情况 下 是 多 少 ? 

给 出 使 用 一 个 新 哈 希 函 数 AD = 3k mod 17 将 图 10-6 中 的 哈 希 表 重 映射 到 一 个 新 的 表 中 的 结果 。 
我 们 的 HashMapBase 类 维护 了 一 个 负载 因子 入 < 0.5。 重 新 实现 类 使 之 允许 用 户 指定 最 大 
负载 ， 并 相应 地 调整 具体 子 类 。 

写 出 一 个 使 用 二 次 探测 解决 冲突 的 哈 希 表 插 人 算法 的 伪 代 码 ， 假 设 我 们 也 使 用 一 个 特殊 的 
“关闭 条 目 ” 对 象 来 蔡 换 删除 条 目的 方法 。 

使 用 二 次 探测 修改 ProbeHashMap 类 。 

试 说 明 为 什么 哈 硕 表 不 适合 实现 排序 映射 。 

描述 如 何 用 排序 表 实 现 的 双向 列表 来 实现 有 序 映射 ADT ? 

对 一 个 初始 包含 2n 项 的 SortedTableMap 实例 执行 n 次 删除 ， 最 坏 情 况 下 的 渐 近 运行 时 间 是 多 少 ? 
在 SortedTableMap 类 的 背景 下 ， 考 虑 以 下 对 代码 段 10-8 中 find index 方法 的 变形 。 


def find index(self, k, low, high): 
if high < low: 
return high 十 1 
else: 
mid — (low + high) // 2 
if self. table[mid]. key — k: 
return self. find index(k, mid + 1, high) 
else: 
return self. find index(k, low, mid — 1) 


这 是 否 能 产生 和 原始 版 本 产生 相同 的 结果 ? 证 明 你 的 结论 。 

如 果 我 们 做 n 项 的 插入 操作 ， 其 中 每 项 的 性 能 和 价格 低 于 它 的 前 一 项 ， 维 护 一 个 最 大 和 集 的 方 
法 的 预期 运行 时 间 是 多 少 ? 在 有 序 映射 中 一 系列 操作 的 最 后 包含 了 什么 ”如 果 每 项 比 之 前 的 
一 项 有 更 低 的 成 本 和 更 高 的 性 能 呢 ? 

在 图 10-13 所 示 的 跳跃 表 中 ， 画 一 个 跳跃 表 S 执行 操作 序列 delS[38], S[48] = 'x', S[24] = 'y', 
del S[55] 的 结果 。 同 时 记录 你 抛 的 硬币 的 结果 。 

给 出 一 个 使 用 跳跃 表 的 映射 操作 —delitem _ 的 伪 代 码 。 

给 出 一 个 在 MutableSet 抽象 基 类 的 背景 下 pop 方法 的 具体 实现 方法 ， 只 依靠 10.5.2 节 中 五 
个 核心 集合 行为 来 描述 。 

在 MutableSet 抽象 基 类 的 背景 下 给 出 一 个 具体 的 isdisjoint 方法 的 实现 方法 ， 只 依靠 该 类 的 
五 个 主要 的 抽象 方法 。 这 个 算法 应 该 在 O(min(n, m) 内 运行 ， 其 中 nn 和 m 表示 两 个 集合 各 自 
的 基 。 

你 会 用 什么 样 的 抽象 来 管理 一 个 朋友 生日 的 数据 库 ， 以 支持 “找到 所 有 生日 为 今天 的 朋友 ” 
或 者 “找到 谁 将 是 下 一 个 庆祝 生日 的 朋友 ”这 样 的 有 效 查 询 。 


在 10.1.3 节 中 ， 我 们 给 出 了 一 个 应 该 出 现在 MutableMapping 抽象 基 类 中 的 setdefault 方 法 
的 实现 方法 。 而 当 该 方法 以 一 般 的 方式 完成 目标 时 ， 它 的 效率 并 不 理想 。 特 别 的 ， 若 键 是 新 
的 ,由 于 — getitem ”的 初次 使 用 ， 并 随后 通过 — setitem “来 执行 插入 ， 会 导致 搜索 失败 。 
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对 于 一 个 具体 的 实现 ， 例 如 UnsortedTableMap， 这 是 两 们 的 工作 量 ， 因 为 在 ”getitem — X 
败 期 间 会 发 生 一 个 完整 的 表 的 扫描 ， 并 且 接 下 来 因为 _ setiem _ 的 实现 会 生成 男 一 个 完整 
的 表 的 扫描 。 一 个 更 好 的 解决 方案 是 为 UnsortedTableMap 类 重 写 setdefault 以 提供 一 个 直接 
的 执行 单个 搜索 的 解决 方案 。 给 出 这 样 一 个 UnsortedTableMap.setdefault 的 实现 方法 

重新 实现 练习 C-10.28 的 ProbeHashMap 类 。 

重新 实现 练习 C-10.28 的 ChainHashMap 类 。 

对 于 一 个 理想 的 压缩 函数 ， 哈 希 表 桶 (bucket) 数组 的 容量 应 该 是 一 个 素数 。 那 么 ， 让 我 们 
考虑 在 [. M, 2M | 的 范围 内 定位 一 个 素数 的 问题 。 试 实现 一 个 方法 ， 通 过 使 用 筛选 法 找到 这 
样 的 素数 。 在 该 算法 中 ， 我 们 分 配 一 个 含 2M 个 布尔 型 单元 (cell) 的 数组 4， 其 中 的 单元 i 
与 整数 i 相关 联 。 接 下 来 将 该 数组 所 有 的 单元 都 初始 化 为 “ 真 "， 并 “ 标 出 ”所 有 2、3 、5、 
7 等 素数 倍数 的 单元 。 在 达到 一 个 大 于 V2M 的 数字 后 ， 这 个 过 程 可 以 停止 。( 提 示 : HERM 
方法 (bootstrapping) 来 寻找 素数 到 V2M 。) 

在 ChainHashMap 和 ProbeHashMap 类 上 进行 试验 ,测量 二 者 在 使 用 随机 密 钥 集 和 改变 负载 
因子 限制 时 的 效率 (参见 练习 R-10.15 )。 

我 们 在 ChainHashMap 中 实现 的 分 离 链 表 ， 通 过 用 None 表示 空 桶 而 不 是 二 级 结构 的 空 实 例 
来 节省 内 存 。 由 于 其 中 的 很 多 桶 将 保持 一 个 项 目 ， 因 此 更 好 的 优化 方法 是 使 表 中 的 这 些 位 置 
直接 引用 Item 实例 ， 并 且 对 含有 两 个 或 更 多 项 目的 桶 使 用 二 次 容器 。 重 写 这 个 实现 以 提供 
这 种 额外 的 优化 。 

计算 一 个 哈 希 代码 ， 尤 其 是 当 键 较 长 时 计算 的 代价 可 能 是 昂贵 的 。 在 我 们 的 哈 希 表 实 现 中 ， 
第 一 次 插入 项 目 时 我 们 计算 哈 希 代码 ， 且 每 次 重新 计算 条 目的 哈 希 代码 时 都 要 调整 表 的 大 
小 。Python 的 dict 类 有 一 个 有 趣 的 折衷 ， 在 插入 一 个 项 目 时 计算 一 次 喻 希 码 ， 并 存储 喻 希 
码 为 项 目 组 合 的 一 个 附加 的 域 ， 这 样 就 不 需要 重新 计算 了 。 使 用 这 样 的 方法 重新 实现 我 们 的 
HashMapBase 类 。 

描述 怎样 从 哈 希 表 中 进行 删除 操作 ， 在 这 个 哈 希 表 中 我 们 不 用 特殊 标记 表示 已 删除 的 元 素 ， 
而 是 用 线性 探测 来 解决 冲突 。 也 就 是 说 ， 我 们 必须 重新 整理 内 容 ， 以 使 得 已 经 删除 的 条 目 不 
会 再 插入 表 中 的 第 一 个 位 置 。 

二 次 探测 策略 有 一 个 与 寻找 开放 位 置 方法 相关 的 聚 类 问题 。 就 是 说 ， 当 在 桶 h(k) 中 发 生 冲 突 
时 ， 会 检查 桶 4[(h( 有 ) + 六 mod N], i=1,2,…,N-1。 

a) 对 于 素数 NW, 的 范围 从 1 到 NWN — 1, ftit P mod N 至 多 有 (n+ 1)/2 个 不 同 的 值 。 基 于 
这 个 假设 ,注意 对 于 所 有 的 i A? mod N=(N- i) mod N, 

b) 更 好 的 策略 是 选择 一 个 素数 N， 其 中 入 mod 4 = 3， 然 后 检查 桶 Ahk) € P) mod N], i 从 
1 到 (N 一 1)/2， 正 负 交 替 。 证 明 这 种 交替 版 本 可 以 保证 A 中 每 个 桶 都 会 检查 到 。 

重 构 ProbeHashMap 的 设计 ， 以 使 二 次 探测 序列 能 更 方便 地 定制 解决 冲突 。 通 过 分 别 为 线性 
探测 和 二 次 探测 提供 具体 的 子 类 来 证 明 这 个 新 框架 。 

重新 设计 一 个 使 用 排序 查找 表 的 二 分 法 查找 ， 实 现 多 集 操作 find all(k)， 表 中 包括 重复 项 ， 
并 证 明 它 的 运行 时 间 是 O(s + log n)。 其 中 是 字典 中 元 素 的 个 数 ,，s 是 键 为 上 的 项 目的 
个 数 。 

尽管 映射 中 的 键 是 不 同 的 ， 但 是 二 分 查找 算法 可 以 应 用 于 更 一 般 的 环境 中 ,在 这 样 的 环境 中 
用 一 个 数组 以 非 降 序 的 方式 存储 可 能 存在 重复 的 各 个 元 素 。 考 虑 识别 最 左边 键 大 于 等 于 给 定 
大 的 元 素 索引 的 目的 。 代 码 段 10-8 所 给 出 的 _find_ index 方法 是 否 能 保证 这 一 结果 ? 在 练习 
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R-10.21 中 给 出 的 _find_index 方法 是 否 能 保证 这 种 结果 ? 证 明 你 的 结论 。 

假设 我 们 给 出 了 两 个 排序 搜索 表 8 和 7， 每 个 表 中 都 有 2 个 条 目 (83 和 7 都 通过 数组 实 
现 )， 描 述 一 个 运行 时 间 为 O(log? n) 的 算法 来 在 S 和 7 的 并 集中 找到 第 小 的 键 (假设 没有 
重复 )。 

给 出 对 上 一 个 问题 运行 时 间 为 O(log n) 的 解决 方案 。 

假设 一 个 nxn 的 数组 4 每 行 都 由 1 和 0 组 成 ,在 任何 一 行 中 ， 所 有 的 1 都 在 0 之 前 出 现 。 
假设 4 已 经 载 人 内 存 ， 描 述 一 个 O(n log n) 时 间 内 运行 (不 是 O(n’) 时 间 内 ) 的 计算 4 中 1 
的 个 数 的 方法 。 

给 出 一 个 含有 个 价格 一 性 能 对 (c,p) 的 集合 C， 描 述 一 个 在 O(n log n) 时 间 内 发 现 C 的 极 
大 值 对 的 算法 。 

证 明 方 法 above(p) 和 prev(p) 实际 上 不 需要 使 用 跳跃 表 来 实现 映射 。 也 就 是 说 ， 我 们 可 以 在 
跳跃 表 中 ， 通 过 使 用 严格 的 自 上 而 下 、 正 向 扫描 方法 实现 插入 和 删除 ， 而 不 需要 使 用 above 
或 者 prev 方 法 。( 提 示 : 在 插 和 人 算法 中 ， 首 先 通过 反复 地 掷 硬币 来 确定 应 该 在 哪个 水 平 层 开 
始 插入 新 的 条 目 。) 

描述 如 何 修 改 一 个 基于 索引 操作 的 跳跃 表 形式 ,例如 在 索引 j 中 检索 条 目 ， 可 以 在 预期 时 间 
O(log n) 内 完成 。 

MPRA SALT, 语法 ST 返回 一 个 称 为 对 称 差 的 新 集合 ， 即 这 个 集合 中 的 元 素 包 含 在 5 或 
者 TT 两 者 之 一 中 。 xor o 方法 支持 该 语法 。 在 MutableSet 抽象 基 类 的 背景 下 ， 给 出 一 个 该 
方法 的 实现 方法 ， 只 依靠 该 抽象 基 类 的 五 个 主要 的 抽象 方法 。 

描述 一 个 基于 MutableSet 抽象 基 类 的 ”and 方法 的 具体 实现 方法 ,该 方法 支持 计算 两 个 
现 有 集合 交集 的 语法 S & T, 

对 于 实现 搜索 引擎 或 书 的 索引 ， 倒 排 文 件 是 一 个 重要 的 数据 结构 。 给 定 的 文件 D 可 以 被 视 
为 一 个 单词 无 序 的 、 编 号 的 列表 ; 倒 排 文件 则 是 一 个 单词 的 排序 列表 ,例如 列表 LK， 对 于 每 
一 个 在 工 中 的 单词 w， 我 们 存储 D 中 出 现 w 的 位 置 的 索引 。 设 计 一 个 在 D 中 构造 的 有 效 
算法 。 

Python 的 collections 方法 提供 了 一 个 OrderedDict 类 ， 它 和 有 序 映 射 抽 象 无 关 。OrderedDict 
类 是 标准 的 基于 映射 的 dict 类 的 子 类 ， 它 的 主要 映射 操作 保持 预期 的 时 间 执 行为 0(1)， 但 是 
它 也 保证 iter 方法 依 先进 先 出 ( FIFO) 的 顺序 报告 映射 中 的 条 目 。 这 就 是 说 ， 最 先 报告 
字典 中 保存 时 间 最 长 的 键 。( 当 已 有 键 的 值 被 重 写 时 ， 顺 序 是 不 受 影响 的 。) 写 一 个 符合 这 样 
的 性 能 要 求 的 算法 。 


进行 一 项 比较 分 析 ， 研 究 各 种 字符 串 的 哈 希 代码 的 冲突 率 ， 例 如 比较 各 种 参数 a 值 不 同 的 多 
项 式 哈 希 代码 。 使 用 哈 希 表 来 检测 冲突 ， 但 只 计算 那些 不 同 字符 串 映射 到 相同 哈 希 代码 中 的 
冲突 (除非 它们 映射 到 该 哈 希 表 的 同一 位 置 )。 用 在 互联 网 上 找到 的 文本 文件 来 测试 这 些 哈 希 
函数 。 

在 10 位 数字 的 电话 号 码 而 不 是 字符 串 的 哈 希 码 上 实施 上 一 练习 中 的 比较 分 析 。 

实现 一 个 OrderedDict 类 ， 如 练习 C-10.49 中 描述 的 那样 ， 确 保 主 要 的 映射 操作 预期 的 运行 时 
间 为 0(1)。 

设计 一 个 实现 跳跃 表 数 据 结构 的 Python 类 。 使 用 这 个 类 创建 一 个 完整 的 有 序 映射 ADT 的 
实现 。 
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P-10.54 通过 提供 跳跃 表 操 作 的 图 形 动 画 扩 展 前 一 个 问题 。 可 视 化 展示 如 何在 插入 时 完全 移动 跳跃 
表 ， 以 及 如 何在 删除 时 和 跳跃 表 断 开 联 系 。 此 外 ， 在 搜索 操作 中 ， 设想 正 向 扫描 和 下 降 
动作 。 

P-10.55 写 一 个 存储 Python 集合 中 的 单词 不 的 拼写 检查 器 类 ， 并 实现 check(s) 方法 ， 该 方法 在 关于 单 
词 集合 下 的 字符 串 s 中 执行 拼写 检查 。 如 果 s 在 碾 中 ,那么 调用 check(s) 返回 一 个 只 包含 s 
的 列表 ,假定 s 在 该 情况 下 是 拼写 正确 的 。 如 果 s 不 在 下 中， 则 调用 check(s) 返回 一 个 丈 中 
每 个 可 能 是 s 的 正确 拼写 的 单词 列表 。 程 序 应 该 能 够 处 理 所 有 常见 的 问题 ，s 有 可 能 是 W rp 
一 个 拼 错 的 词 ， 包 括 : 单词 中 相 邻 的 字母 顺序 颠倒 ， 在 单词 中 两 个 相 邻 字母 间 插 入 一 个 字母 ， 
从 单词 中 删除 一 个 字母 ， 单 词 中 的 一 个 字母 被 另外 一 个 字母 代替 。 也 考虑 发 音 相似 的 替换 ， 
这 是 一 个 额外 的 挑战 。 


扩展 阅读 

哈 希 是 一 个 被 深入 研究 的 技术 。 感 兴趣 的 读者 可 以 进一步 研究 Knuth®), Vitter 和 Chen!" 的 
Po Pugh*9 介绍 了 跳跃 表 。 我 们 对 于 跳跃 表 的 研究 是 Motwani 和 Raghavan? 所 给 出 的 报告 的 一 个 
简化 。 对 于 跳跃 表 更 深入 的 分 析 ， 请 参阅 数据 结构 文献 [ 59, 81, 84 ] 中 各 种 跳跃 表 的 研究 论文 。 练 习 
C-10.36 是 James Lee 的 研究 内 容 。 
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11.1 MBAR 
在 第 8 章 中 ， 我 们 介绍 了 树 型 数据 结构 ， 并 且 演 示 了 多 种 应 用 程序 。 树 型 数据 结构 的 
一 个 重要 用 途 是 用 作 搜 索 树 。 在 本 章 中 ， 我 们 使 用 搜索 树 结构 来 有 效 地 实现 有 序 映射 。 映 射 
M 的 三 种 最 基本 的 方法 ( 见 10.1.1 节 ) A: 
e M [k]: 在 映射 M 中 ， 如 果 存 在 与 键 k 相关 联 的 值 v， 返 回 v; 否则 ， 抛 出 KeyError。 
用  getitem ”方法 来 实现 。 
e M [k] =v: 在 映射 M 中 ,将 键 k 与 值 v 相关 联 ， 如 果 映 射 中 已 经 包含 键 等 于 k 的 项 ， 
则 用 v 替换 现 有 值 。 用 setitem ”方法 来 实现 。 
e del M [k]: 从 映射 M 里 删除 键 等 于 k 的 项 ; 如 果 M 中 没有 这 样 的 项 ， 则 引发 
KeyError。 用 delitem ”方法 来 实现 。 
有 序 映射 ADT 包括 许多 附加 功能 (UL 10.3 节 )， 以 保证 迭代 器 按照 一 定 顺序 输出 键 ， 
并 且 支 持 额 外 的 搜索 ， 如 find gt(k) 和 find range 
(start, stop). 
假设 已 经 根据 键 得 到 次 序 关 系 ， 对 于 存储 这 些 
数据 ， 二 又 树 是 一 个 很 好 的 数据 结构 。 在 本 章 中 ， 
二 又 搜索 树 是 每 个 节点 p 存储 一 个 键 值 对 (kK,v) 的 
e 存储 在 p 的 左 子 树 的 键 都 小 于 k。 
e 存储 在 p 的 右 子 树 的 键 都 大 于 ko 
图 11-1 给 出 了 二 又 搜 索 树 的 例子 。 为 了 方 图 11-1 用 整数 键 表示 的 二 又 搜索 树 。 在 本 





便 ， 我 们 在 本 章 中 不 会 用 图 解法 表示 与 键 关联 的 音 中 我 们 省 略 关联 的 值 ， 因 为 它们 
值 ， 因 为 这 些 值 不 影响 这 些 项 在 搜索 树 中 的 位 置 。 在 一 个 搜索 树 中 与 项 的 顺序 无 关 


11.1.1 遍历 二 叉 搜 索 树 


我 们 首先 指明 ， 二 叉 搜 索 树 分 层 地 表示 了 键 的 排列 顺序 。 特 别 地 ， 二 又 搜索 树 中 关于 键 
的 位 置 的 结构 特性 使 得 树 的 遍历 是 中 序 遍 历 ( 见 8.4.3 节 )。 

命题 11-1: 二 又 搜索 树 的 中 序 遍 历 是 按照 键 增加 的 顺序 进行 的 。 

证 明 : 我 们 通过 对 子 树 的 大 小 进行 归纳 来 证 明 这 一 命题 。 如 果 一 个 子 树 至 多 有 一 个 节 
点 ， 它 的 键 都 是 按照 顺序 访问 的 。 一 般 来 说 ，( 子 ) 树 的 中 序 遍 历 首先 是 左 子 树 (可 能 为 空 ) 
的 递归 遍历 ， 其 次 是 根 节点 访问 ,最 后 是 右 子 树 (可 能 为 空 ) 的 递归 遍历 。 综 上 所 述 ， 左 子 
树 递 归 地 进行 中 序 遍历 会 在 该 子 树 上 以 递增 的 顺序 产生 键 的 迭代 。 而 且 ， 根据 二 又 搜 索 树 的 
特性 ， 左 子 树 上 所 有 节点 的 键 都 比 根 节点 的 小 。 因 此 ， 在 按 值 的 递增 顺序 访问 完 左 子 树 之 后 
再 访问 其 根 节点 。 最 后 ， 根 据 搜索 树 的 特性 ， 右 子 树 上 所 有 节点 的 键 都 比 根 节 点 的 大 ， 通 过 
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归纳 可 知 ， 该 子 树 的 中 序 遍历 将 按键 的 递增 顺序 访问 右 子 树 。 b 

由 于 中 序 遍 历 可 以 在 线性 时 间 内 被 执行 ， 当 对 二 又 搜索 树 进行 中 序 遍 历时 ， 根 据 以 上 定 
理 我 们 可 以 在 线性 时 间 内 产生 一 个 映射 中 所 有 键 的 有 序 迭 代 。 

虽然 通常 使 用 自 顶 向 下 的 递归 来 表示 中 序 遍 历 ， 我们 还 是 可 以 提供 一 些 操作 的 非 递 归 说 
明 ， 这 些 操 作 即 允许 在 与 键 的 顺序 相关 的 二 又 搜 索 的 位 置 之 中 进行 更 细 粒 度 地 遍历 。 第 8 E 
的 一 般 二 义 树 ADT 被 定义 成 一 个 位 置 结构 ， 人 允许 使 用 诸如 parent(p)、left(p) 和 right(p) 的 方 
法 直接 定位 。 对 于 二 又 搜索 树 ， 我 们 可 以 基于 存储 在 树 中 的 键 的 自然 顺序 提供 额外 的 定位 。 
特别 地 ， 我 们 可 以 支持 下 面 的 方法 一 一 类 似 于 由 PositionalList (WL 7.4.1 15) 提供 的 方法 。 


e frist): 返回 一 个 包含 最 小 键 的 节点 ， 如 果树 为 空 ， 则 返回 None. 
e last(): 返回 一 个 包含 最 大 键 的 节点 ， 如 果树 为 空 ， 则 返回 None. 


€ before(p) : 返回 比 节点 p 的 键 小 的 所 有 节点 中 键 最 大 的 节点 〈 即 中 序 遍历 中 在 p 之 前 
最 后 一 个 被 访问 的 节点 )， 如 果 p 是 第 一 个 节点 ， 则 返回 None. 
after(p): 返回 比 节 点 p 的 键 大 的 所 有 节点 中 键 最 小 的 节点 ( 即 中 序 遍历 中 在 p 之 后 第 
一 个 被 访问 的 节点 )， 如 果 p 是 最 后 一 个 节点 ， 则 返回 None. 

二 又 搜 索 树 的 “第 一 个 ”位 置 可 以 从 根 开始 ， 并 且 只 要 左 子 树 存 在 就 继续 搜索 左 子 树 。 
与 之 相对 的 ， 通过 从 根 开始 向 右 进 行 重复 的 步骤 到 达 最 后 的 位 置 。 

节点 的 后 继 after(p) 由 下 述 算法 确定 。 


代码 段 11-1 在 二 叉 搜 索 树 中 计算 某 一 位 置 的 后 继 节 点 
Algorithm after(p): 
if right(p) is not None then | successor is leftmost position in p's right subtree} 
walk — right(p) 
while left(walk) is not None do 
walk — left(walk) 
return walk 
else {successor is nearest ancestor having p in its left subtree } 
walk — p 
ancestor — parent(walk) 
while ancestor is not None and walk == right(ancestor) do 
walk — ancestor 
ancestor — parent(walk) 
return ancestor 


这 个 过 程 的 基本 原理 完全 是 基于 中 序 遍 历 的 算法 ， 与 命题 11-1 相 一 致 。 如 果 p 节点 
一 个 右 子 树 ，P 节点 被 访问 之 后 右 子 树立 即 被 递归 遍历 ， 所 以 p 节点 之 后 第 一 个 被 访问 到 的 
节点 是 其 右 子 树 的 最 左 节 点 。 如 果 p 节点 没有 右 子 树 ， 则 中 序 遍 历 的 控制 流 返回 到 p 节点 的 
父 节点 。 如 果 p 节点 是 在 父 节点 的 右 子 树 ， 那 么 父 节 点 的 子 树 遍 历 完 成 ， 控 制 流 前 进 到 该 父 
节点 的 父 节点 并 继续 执行 。 一 旦 递归 从 其 左 子 树 回来 到 达 一 个 祖先 节点 ， 那 么 这 个 祖先 节点 
变 成 遍历 的 下 一 个 节点 ， 因 而 是 p 节点 的 后 继 。 请 注意 ， 只 有 在 p 节点 是 整 棵 树 的 最 右 (最 
后 ) 节点 并 发 现 没 有 这 样 的 祖先 的 情况 下 ， 没 有 后 继 节 点 。 

节点 的 前 驱 可 以 使 用 对 称 的 算法 来 确定 ， 即 before(p)。 在 这 一 点 上 ， 我 们 发 现 单独 调 
用 after(p) 或 者 before(p) 的 运行 时 间 受 整 棵 树 高 度 h 的 约束 ， 因 为 它 要 么 是 向 下 走 ， 要 么 是 
向 上 走 。 在 最 坏 情 况 下 运行 时 间 为 0(h)， 上 述 两 种 方法 执行 的 挫 销 时 间 为 0(1)， 从 第 一 个 
节点 开始 n 次 调用 after(p) 的 总 时 间 为 0(n)。 我 们 将 这 一 证 明 留 作 练 习 C-11.34， 这 直观 地 
模拟 了 中 序 遍 历 向 上 和 向 下 的 操作 步骤 (相关 参数 在 命题 9-3 中 )。 
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二 又 搜索 树 的 结构 特性 产生 的 最 重要 的 结果 是 搜索 算法 。 我 们 可 以 尝试 在 一 棵 二 又 搜索 
树 中 通过 把 它 表示 成 决策 树 的 形式 定位 一 个 特定 的 键 ( 见 图 8-7 )。 在 这 种 情况 下 ， 在 每 个 
节点 p 的 问题 就 是 期 望 的 键 k 是 否 小 于 、 等 于 或 大 于 存储 在 节点 p WHE, 这 表示 为 p.key()。 
如 果 答 案 是 “小 于 ”， 那 么 继续 搜索 左 子 树 。 如 果 答 案 是 “等 于 "， 那 么 搜索 成 功 终止 。 如 果 
答案 是 “大 于 ”， 那 么 继续 搜索 右 子 树 。 最 后 ， 如 果 得 到 空 的 子 树 ， 那 么 就 是 没有 搜索 到 ， 
(如 图 11-2 所 示 )。 





图 11-2 a) 在 二 又 树 上 成 功 搜索 键 65; b) 在 二 又 树 上 没有 搜索 到 键 68， 因 为 键 76 的 左边 没有 子 树 


我 们 将 在 代码 段 11-2 中 描述 这 种 方法 。 如 果 要 搜索 的 键 为 k， 它 出 现在 以 p 节点 为 根 
的 子 树 中 ， 调 用 TreeSearch(7, p, 月 可 以 得 到 键 k 的 位 置 ; 在 这 种 情况 下 ， —getitem _ 映 
射 操作 将 返回 相关 联 的 值 。 在 寻找 未 果 的 情况 下 ，TreeSearch 算法 返回 搜索 路 径 的 最 终 位 置 
(我 们 将 会 使 用 该 位 置 决定 在 哪里 插入 一 个 新 的 节点 )。 


代码 段 11-2 ”二叉树 搜索 的 递归 调用 
Algorithm TreeSearch(T, p, k): 

if k == p.key() then 

return p [successful search] 
else if k < p.key() and T.left(p) is not None then 

return TreeSearch(T, T.left(p), k) [recur on left subtree} 
else if k > p.key() and T.right(p) is not None then 

return TreeSearch(T, T.right(p), k) {recur on right subtree} 
return p {unsuccessful search} 


二 又 树 搜索 的 分 析 
二 又 树 TRE BR o o eey. iiai 


很 容易 。TreeSearch 算法 是 递归 的 ， 并 且 WT. 
每 个 递归 调用 执行 恒定 数量 的 原 语 操作 。 CMM O(1) 
TreeSearch 的 每 次 递归 调用 是 对 前 一 个 位 NETTE SN 


置 的 子 节 点 做 的 。 也 就 是 说 ，TreeSearch puo : $ LN ~~ e 





在 了 的 路 径 中 的 各 个 节点 上 被 调用 ， 从 根 
节点 开始 每 一 次 下 降 一 层 。 因 此 ， 节 点 的 E ° 
数目 被 限定 为 hn+ 1， 其 中 是 7 的 高 度 。 总 的 时 间 : OQ) 
换 句 话说 ， 因 为 每 一 个 节点 的 搜索 时 间 为 ”图 11-3 说 明 二 又 搜索 树 的 运行 时 间 。 其 中 将 二 又 
0(1)， 则 总 的 搜索 运行 时 间 为 Olh), HP 搜索 树 看 作 一 个 大 三 角形 ， 那 么 从 根 节点 开 
是 二 又 搜 索 树 7 的 高 度 ( 见 图 11-3 )。 始 的 搜索 路 径 就 是 该 三 角形 内 的 锯齿 形 线 
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在 有 序 映 射 ADT 中 ， 搜 索 将 作为 实现 ”getitem 以 及 ”setitem 和 — delitem — 77 
法 的 子 程序 ， 因 为 这 些 方法 都 需要 通过 一 个 给 定 的 键 查找 一 个 现 有 节点 。 为 了 实现 有 序 映射 
操作 (Ui find It 和 find gt), 我 们 将 把 搜索 和 人 遍历 方法 before 和 after 结合 起 来 使 用 。 当 树 
的 高 度 为 h 时， 所 有 这 些 操 作 在 最 坏 情 况 下 的 时 间 复 杂 度 将 为 O(h)。 我 们 可 以 使 用 修改 后 
的 算法 在 时 间 O(s + h) 内 来 实现 find range 方法 ， 其 中 s 是 节点 数 ( 见 练习 C-11.34 )。 

MOOR, OT 的 高 度 h 可 以 和 节点 的 数量 一样 大 ， 但 一 般 情况 下 小 得 多 。 在 本 章 后 面 ， 我 
们 将 展示 各 种 策略 ， 使 得 搜索 树 了 的 高 度 的 上 界 为 O(log n). 


11.1.3 ”插入 和 删除 


插入 或 删除 二 又 搜索 树 的 项 的 算法 虽然 很 常用 ,但 是 相当 简单 。 

插入 

映射 命令 M [K] =v, 在 __setitem _ 方法 的 支持 下 ,首先 搜索 键 为 的 项 (假设 映射 不 
能 为 空 ) 。 如 果 找 到 ， 该 节点 将 会 被 重新 赋值 ; 否则 ， 新 的 节点 可 以 插 到 树 7 的 下 一 层 ， 代 
蔡 搜索 失败 结束 时 得 到 的 空子 树 。 在 二 又 搜索 树 持 续 操 作 该 位 置 (注意 ， 恰 好 放置 在 一 个 搜 
索 期 望 的 地 方 )。 代 码 段 11-3 给 出 了 TreeInsert 算法 的 伪 代 码 。 


代码 段 11-3 ”在 表示 为 二 叉 搜索 树 的 映射 中 插入 键 - 值 对 的 算法 


Algorithm Treelnsert(T, k, v): 
Input: A search key k to be associated with value v 
p = TreeSearch(T, T.root(), k) 
if k == p.key() then 
Set p's value to v 
else if k < p.key() then 
add node with item (k,v) as left child of p 
else 
add node with item (k,v) as right child of p 


图 11-4 所 示 为 插入 二 又 搜索 树 的 一 个 例子 。 





图 11-4 在 图 11-2 所 示 的 二 叉 树 中 插 和 人 键 为 68 的 节点 。a) 表示 找 出 插入 位 置 ，b) 表示 最 终 插入 后 的 树 


删除 

从 二 叉 搜 索 树 7 中 删除 一 个 节点 比 插入 一 个 新 的 节点 更 复杂 ， 因 为 删除 的 位 置 可 能 在 
树 中 的 任何 地 方 ( 相 比 之 下 ,插入 总 是 在 搜索 路 径 的 最 后 位 置 )。 要 使 用 键 k 删除 一 个 节点 ， 
首先 通过 调用 TreeSearch (T, T.root(), K) 找到 了 中 键 等 于 k 的 节点 的 位 置 p。 如 果 搜 索 成 
功 ， 则 分 成 以 下 两 种 情况 (难度 增加 ): 

e 如 果 p 最 多 有 一 个 孩子 ， 删 除 位 置 p 上 的 节点 就 很 容易 实现 。 在 8.3.1 节 介 绍 LinkedBinary 
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Tree 类 的 更 新 方法 时 ， 我 们 就 定义 了 一 个 非 公 开 的 实体 delete(p), 假设 p 至 多 有 一 . 
个 孩子 ， 就 删除 位 置 的 节点 并 用 其 子 节点 替换 它 (如 果 有 子 节点 的 话 )。 这 正 是 我 
们 所 期 望 的 行为 。 从 映射 中 删除 与 键 kx 有 关联 的 节点 ， 同 时 保持 其 他 所 有 祖先 -后 
继 在 树 中 的 关系 ， 从 而 维持 了 二 又 搜索 树 的 属性 ( 见 图 11-5 ) 。 
如 果 位 置 p 有 两 个 孩子 ， 我 们 不 能 简单 地 去 除 T 中 的 节点 ， 因 为 这 将 创建 一 个 “ 漏 
洞 ” 并 使 两 个 子 节点 成 为 孤儿 。 所 以 ， 应 采用 如 下 操作 步骤 ( 见 图 11-6 ): 
m 通过 11.1.1 节 的 公式 r = before(p)， 定 位 到 小 于 位 置 p 的 键 的 键 最 大 的 节点 的 位 置 
r+。 由 于 p 有 两 个 孩子 ， 其 前 继 是 p 的 左 子 树 中 最 右边 的 位 置 。 
m 使 用 位 置 + 的 节点 作为 位 置 p 被 删除 的 节点 的 替代 。 因 为 r 在 映射 中 具有 紧邻 的 前 
一 个 键 , p 节点 右 子 树 中 的 任何 一 个 节点 都 有 比 r 节 点 更 大 的 键 ,p 的 左 子 树 中 的 
任何 一 个 节点 都 有 比 r 节点 更 小 的 键 。 因 此 ， 在 替换 后 维持 了 二 叉 树 的 属性 。 
使 用 r 节 点 作为 p 节 点 的 替代 以 后 ,我 们 从 树 中 删除 原来 + 位 置 的 节点 。 幸 运 的 
是 ， 因 为 7 节点 被 定位 为 在 子 树 中 最 右边 的 位 置 ， 所 以 r+ 节点 没有 右 子 树 。 因 此 ， 
它 可 以 使 用 第 一 种 方法 (更 简单 ) 来 进行 删除 。 
就 像 搜 索 和 插入 一 样 ， 删 除 算法 涉及 从 根 开始 的 单一 路 径 的 遍历 ， 可 能 移动 节点 或 者 移 
除 路 径 中 的 节点 并 提升 其 子 节点 。 因 此 ， 当 树 的 高 度 是 hh 时， 执行 时 间 复 杂 度 为 O(h)。 





图 11-5 从 图 11-4b 所 示 的 二 又 树 中 删除 p 位 置 的 节点 ( 键 为 32 ), p 节点 有 一 个 子 节点 +。a) 是 删除 
ZH. b) 是 删除 之 后 





图 11-6 从 图 11-5b 所 示 的 二 叉 树 中 删除 p 节点 ( 键 为 88 ), p 节点 有 两 个 孩子 ， 它 的 位 置 将 被 其 前 驱 
六 代替 。a) 是 删除 之 前 ，b) 是 删除 之 后 


11.1.4 Python 实现 
在 代码 段 11-4 — 11-8 中 ， 我 们 定义 了 一 个 使 用 二 又 搜索 树 实现 有 序 映 射 ADT 的 





TreeMap 类 。 事 实 上 ， 我 们 的 实现 更 普通 。 我 们 支持 所 有 标准 映射 操作 ( 见 10.1.1 节 )、 所 
有 附加 有 序 映射 操作 CL 10.3 节 ) 和 对 位 置 的 操作 (包括 first()、last()、find position(k)、 
before(p)、after(p) 以 及 delete(p))。 


代码 段 11-4 ”基于 二 又 搜索 树 的 TreeMap 类 的 开始 
class TreeMap(LinkedBinaryTree, MapBase): 


] 

2  """Sorted map implementation using a binary search tree.”"" 

3 

E dim override Position class 一 -一 一 一 一 一 一 一 一 一 
5 class Position(LinkedBinaryTree.Position): 

6 def key (self): 

7 """ Return key of map's key-value pair." " " 

8 return self.element().. key 


10 def value(self): 
11 """ Return value of map's key-value pair." "" 


12 return self.element().. value 

13 

14 dE nonpublic utilities —----------------------------- 

15 def _subtree_search(self, p, k): 

16 """Return Position of p's subtree having key k, or last node searched." "" 
17 if k —— p.key(): # found match 

18 return p 

19 elif k < p.key(): # search left subtree 
20 if self.left(p) is not None: 

21 return self. subtree. search(self.left(p), k) 

22 else: # search right subtree 
23 if self.right(p) is not None: 

24 return self. subtree. search(self.right(p), k) 

25 return p # unsucessful search 
26 

27 def _subtree_first_position(self, p): 

28 """ Return Position of first item in subtree rooted at p." "" 

29 walk — p 

30 while self.left(walk) is not None: # keep walking left 
31 walk — self.left(walk) 

32 return walk 

33 

34 def .subtree last. position(self, p): 

35 """ Return Position of last item in subtree rooted at p." "" 

36 walk — p 

37 while self.right(walk) is not None: # keep walking right 
38 walk — self.right(walk) 

39 return walk 


代码 段 11-5 TreeMap 类 的 引导 方法 
40 def first(self): 


41 """ Return the first Position in the tree (or None if empty). "" 

42 return self. subtree. first position(self.root()) if len(self) > 0 else None 
43 

44 def last(self): 

45 """ Return the last Position in the tree (or None if empty).""" 

46 return self. subtree last position(self.root()) if len(self) > 0 else None 
47 

48 def before(self, p): 

49 """Return the Position just before p in the natural order. 

50 


51 ‘Return None if p is the first position. 
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self. validate(p) # inherited from LinkedBinaryTree 
if self.left(p): 
return self. subtree last position(self.left(p)) 
else: 
# walk upward 
walk — p 
above — self.parent(walk) 
while above is not None and walk == self.left(above): 
walk — above 
above — self.parent(walk) 
return above 


def after(self, p): 
""" Return the Position just after p in the natural order. 


Return None if p is the last position. 
# symmetric to before(p) 
def find. position(self, k): 
""" Return position with key k, or else neighbor (or None if empty). "" 


if self.is empty(): 
return None 


else: 
p = self. subtree. search(self.root(), k) 
self. rebalance access(p) # hook for balanced tree subclasses 
return p 


代码 段 11-6 TreeMap 类 的 一 些 有 序 映射 操作 


def find_min(self): 
""" Return (key,value) pair with minimum key (or None if empty) 
if self.is empty(): 
return None 
else: 
p = self first() 
return (p.key(), p.value()) 


def find. ge(self, k): 
""" Return (key,value) pair with least key greater than or equal to k. 


Return None if there does not exist such a key. 


if self.is empty(): 
return None 


else: 
p = self.find_position(k) # may not find exact match 
if p.key( ) < k: # p's key is too small 


p — self.after(p) 
return (p.key(), p.value()) if p is not None else None 


def find range(self, start, stop): 
""" |terate all (key,value) pairs such that start <= key < stop. 


If start is None, iteration begins with minimum key of map. 
If stop is None, iteration continues through the maximum key of map. 
if not self.is empty(): 
if start is None: 
p = self first( ) 
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110 else: 

111 3 we initialize p with logic similar to find_ge 

112 p = self.find_position(start) 

113 if p.key( ) < start: 

114 p — self.after(p) 

115 while p is not None and (stop is None or p.key( ) « stop): 
116 yield (p.key(), p.value()) 

117 p = self.after(p) 


代码 段 11-7. TreeMap 类 中 访问 和 插入 节点 的 映射 操作 。 反 向 迭代 可 以 使 用 与 
. iter _ 对 称 的 方法 reverse _ 实现 
118 def __getitem (self, k): 


119 """ Return value associated with key k (raise KeyError if not found)." "" 
120 if self.is empty(): 

121 raise KeyError('Key Error: ' + repr(k)) 

122 else: 

123 p = self. subtree. search(self.root(), k) 

124 self. rebalance. access(p) # hook for balanced tree subclasses 
125 if k != p.key(): 

126 raise KeyError('Key Error: ' + repr(k)) 

127 return p.value( ) 

128 

129 def .setitem. (self, k, v): 

130 """ Assign value v to key k, overwriting existing value if present." "" 

131 if self.is empty( ): 

132 leaf — self. add root(self. Item(k,v)) # from LinkedBinaryTree 
133 else: 

134 p — self. subtree search(self.root(), k) 

135 if p.key( ) == k: 

136 p.element().. value = v # replace existing item's value 

137 self. rebalance. access(p) # hook for balanced tree subclasses 
138 return 

139 else: 

140 item — self. Item(k,v) 

141 if p.key( ) < k: 

142 leaf = self._add_right(p, item) # inherited from LinkedBinaryTree 
143 else: 

144 leaf = self. add left(p, item) — 4 inherited from LinkedBinaryTree 
145 self. rebalance. insert(leaf) # hook for balanced tree subclasses 
146 

147 def iter. (self): 

148 """ Generate an iteration of all keys in the map in order." "" 

149 p = self.first() 

150 while p is not None: 

151 yield p.key() 

152 p — self.after(p) 


代码 段 11-8 利用 TreeMap 类 删除 节点 ， 通 过 位 置 或 者 键 进行 定位 
153 def delete(self, p): 


154 """ Remove the item at given Position." "" 

155 self. validate(p) # inherited from LinkedBinaryTree 
156 if self.left(p) and self.right(p): # p has two children 

157 replacement = self. subtree. last. position(self.left(p)) 

158 self. replace(p, replacement.element()) # from LinkedBinaryTree 
159 p = replacement 

160 # now p has at most one child 

161 parent — self.parent(p) 


162 self. delete(p) # inherited from LinkedBinary Tree 
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163 self._rebalance_delete(parent) # if root deleted, parent is None 
164 

165 def . delitem. (self, k): 

166 """ Remove item associated with key k (raise KeyError if not found).""" 
167 if not self.is empty(): 

168 p = self. subtree search(self.root(), k) 

169 if k —— p.key(): 

170 self.delete(p) # rely on positional version 

171 return # successful deletion complete 
172 self. rebalance. access(p) # hook for balanced tree subclasses 
173 raise KeyError('Key Error: ' + repr(k)) 


TreeMap 类 利用 了 代码 重用 的 多 重 继承 的 优势 : 继承 8.3.1 节 的 LinkedBinaryTree 类 作 
为 二 叉 树 的 再 现 ， 并 且 10.1.4 节 的 代码 段 10-2 中 的 MapBase 类 提供 了 键 - 值 的 复合 项 以 及 
collections 模块 中 的 具体 行为 。MutableMapping 对 基 类 进行 抽象 。 对 于 映射 ， 继 承租 套 的 
Position 类 以 支持 更 具体 的 p.key ( ) 和 p.value( ) 访问 ， 而 不 是 从 树 ADT 继承 p.element() 
语法 。 

我 们 定义 几 个 非 公 开 的 公用 程序 ， 最 显著 的 是 subtree search(p, k) 方法 ， 它 相当 于 
代码 段 11-2 中 的 TreeSearch 算法 。 该 方法 返回 一 个 位 置 ， 理 想 的 返回 位 置 要 么 是 包含 键 k 
的 位 置 ， 要 么 是 搜索 路 径 上 访问 的 最 后 一 个 位 置 。 我 们 的 依据 是 不 成 功 的 搜索 过 程 中 最 后 
的 位 置 或 者 是 比 k 小 的 最 近 的 键 或 者 是 比 k 大 的 最 近 的 键 。 该 搜索 方法 成 了 公共 的 find | 
position(k) 方法 的 基础 ， 也 成 了 在 映射 中 搜索 、 插 入 或 删除 节点 时 的 内 部 使 用 的 基础 ， 同 时 
也 成 了 有 序 映射 ADT 的 强大 搜索 的 基础 。 

当 对 树 进行 结构 修改 时 ， 我 们 依靠 非 公开 的 更 新 方法 (如 _add_right)， 其 继承 于 Linked- 
BinaryTree 类 (JL 8.3.1 节 )。 这 些 继承 的 方法 保持 非 公 开 很 重要 ， 因 为 通过 这 种 操作 的 误 操 
作 可 能 违背 搜索 树 的 属性 。 

最 后 ， 我 们 注意 到 ， 代 码 充斥 着 名 为 rebalance insert, rebalance delete 和 rebalance_ 
access 的 推测 方法 的 调用 。 这 些 方法 作为 以 后 平衡 搜索 树 时 的 钩子 函数 使 用 ; CL 11.2 节 )。 
我 们 将 给 出 相关 代码 的 概览 。 

e 代码 段 11-4 : 以 TreeMap 类 开始 ， 该 类 包括 重 定义 的 Position 类 和 非 公共 的 搜索 实 

用 程序 。 
e 代码 段 11-5: 有 关 位 置 类 的 函数 first()、last()、before(p)、after(p) 和 find position(p) 
的 访问 。 

e 代码 段 11-6: 有 序 映射 ADT 的 一 些 方法 ， 即 find min(), find ge(k) 和 find range(start, 

stop)。 为 了 简洁 起 见 ， 省 略 了 相关 方法 。 

e 代码 段 11-7: __getitem _ (k), setitem (k,v) 和 iter (). 

e 代码 段 118: 通过 位 置 删除 的 函数 delete(p); 通过 键 值 删除 函数 delitem__(k). 


11.1.5 二 叉 搜 索 树 的 性 能 


表 11-1 中 给 出 了 TreeMap 类 的 操作 的 分 析 。 几 乎 所 有 操作 都 有 一 个 最 坏 的 运行 时 间 ， 
它 取决 于 树 的 高 度 h。 这 是 因为 大 多 数 操作 依赖 于 一 个 常数 数量 的 操作 ， 每 个 节点 的 操作 沿 
着 树 的 特定 路 径 ， 且 最 大 的 路 径 长 度 与 树 的 高 度 成 正比 。 最 值得 注意 的 是 ， 与 映射 相关 的 操 
lE getitem 、 setitem 和 delitem ， 都 是 从 树 的 根 节点 开始 调用 subtree search 








方法 向 下 搜索 ， 在 每 个 节点 上 使 用 OQ) 的 时 间 来 决定 如 何 继续 搜索 。 在 删除 时 寻找 一 个 蔡 
代位 置 ， 或 者 计算 一 个 位 置 的 前 驱 或 者 后 继 时 都 有 类 似 的 路 径 。 我 们 注意 到 ， 虽 然 after 方 
法 的 单个 调用 最 糟糕 的 时 间 复 杂 度 是 0(h), n 次 连续 调用 — iter _ 需要 O(n) 的 时 间 ， 因 
为 每 个 边 最 多 被 追踪 两 次 ; 在 某 种 意义 上 上， 这些 调 用 有 0(1) 的 摊 销 时 间 界 限 。 类 似 的 参 
数 可 以 用 来 证 明 调 用 find. range 方法 找到 个 结果 的 最 坏 的 时 间 复 杂 度 是 O(s+ 门 ( 见 练习 
C-11.34), 


表 11-1 TreeMap T 的 操作 的 最 坏 时 间 复 杂 度 。 用 表示 当前 树 的 高 度 ， 用 s 表示 find range 函数 
的 节点 数量 。 空 间 使 用 度 是 O(n)， 其 中 n 是 映射 的 节点 数量 


操 作 运行 时 间 
kinT O(h) 
T[k], T[k] = v O(h) 
T.delete(p), del T[k] O(h) 
T.find position(k) O(h) 
T.first(), T.last(), T.find min(), T.find max() O(h) 
T.before(p), T.after(p) O(h) 
T.find It(k), T.find_le(k), T.find_gt(k), T.find ge(k) O(h) 
T.find_range(start, stop) O(s +h) 
iter(T), reversed(T) O(n) 


只 有 在 树 的 高 度 比较 小 的 情况 下 ， 二 又 搜索 树 7 才 是 实现 有 个 实体 的 映射 的 高 效 算 
法 。 在 最 好 的 情况 下 ， 树 7 的 高 度 h=[ log(m + 1) 1- 1， 这 对 所 有 映射 都 能 产生 对 数 的 时 间 
性 能 。 然 而 在 最 坏 的 情况 下 ,7 的 高 度 为 x， 在 这 种 情况 


下 ， 它 会 像 映 射 的 一 个 有 序列 表 的 实现 。 如 果 根 据 键 值 的 (0) 
升序 或 者 降序 搬入 节 点 ， 最 坏 的 情况 可 能 会 发 生 CIL 
图 11-7). D 

不 过 ， 值 得 欣 蒜 的 是 ， 通 常 来 说 ， 通 过 一 系列 随 (30) 
机 的 插入 或 删除 键 操 作 ， 生 成 有 7 个 键 的 二 又 搜索 树 的 (40) 
期 望 复杂 度 是 O(log n)。 这 个 定理 的 证 明 超 出 了 本 书 的 图 11-7 线性 二 叉 搜 索 树 的 例子 ， 
范围 ， 需 要 用 数学 语言 精确 地 定义 一 系列 随机 的 插入 和 根据 键 值 的 升序 插入 节点 
删除 的 过 程 ， 并且 要 使 用 复杂 的 概率 理论 知识 才能 得 到 
证 明 。 


在 一 个 不 能 保证 更 新 的 随机 特性 的 应 用 程序 中 ， 最 好 依靠 本 章 剩 余部 分 提 到 的 搜索 树 的 
改进 ， 可 以 保证 最 坏 情 况 下 高 度 为 O(log n)， 因 此 最 坏 情况 下 ， 搜 索 、 插 入 和 删除 的 时 间 复 
杂 度 也 是 O(log n). 


11.2 平衡 搜索 树 

在 前 一 节 的 结尾 处 ， 我 们 注意 到 ， 如 果 假 设 有 一 系列 随机 的 插入 和 删除 操作 ， 标 准 二 又 
搜索 树 基本 映射 操作 的 运行 时 间 是 O(log n)。 然 而 ， 我 们 可 能 只 能 声称 最 坏 的 情况 为 O(n)， 
因为 一 些 操 作 序 列 可 能 导致 一 棵 高 度 与 m 成 正比 的 不 平衡 树 。 
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在 本 章 的 其 余部 分 ， 我 们 探讨 4 种 能 提供 更 强 性 能 保证 的 搜索 树 算 法 。 其 中 3 种 数据 结 
Kj (AVL 树 、 伸 展 树 和 红 黑 树 ) 是 基于 用 少量 操作 对 标准 二 又 搜索 树 进 行 扩 展 去 重新 调整 树 
并 降低 树 的 高 度 。 

平衡 二 又 搜索 树 的 主要 操作 是 旋转 。 
在 旋转 中 ， 我 们 “旋转 ”大 于 其 父亲 节点 
的 孩子 节点 ， 如 图 11-8 所 示 。 

通过 一 个 旋转 来 保持 二 又 搜索 树 的 属 
性 ， 我 们 注意 到 ， 在 旋转 之 前 ， 如 果 位 置 
x 是 yy 位置 的 左 子 树 (因此 x 的 键 小 于 yy 的 
键 )， 旋 转 之 后 ,yy 成 为 x WART, ZIR 
然 。 此 外 ， 我 们 必须 重新 利用 被 旋转 的 两 个 
位 置 之 间 的 键 连接 子 树 节点 。 举 个 例子 ， 在 
图 11-8 标记 为 T» 的 子 树 表示 具有 比 x 位置 
WH), Ky 位 置 的 键 大 的 键 的 节点 。 在 图 
中 第 一 次 配置 时 , 是 x 位 置 的 右 子 树 ; 在 
第 二 次 配置 时 ， 它 是 位 置 y 的 左 子 树 。 

因为 单个 旋转 修改 了 常数 数量 的 父子 关系 ， 在 一 个 二 又 树 中 实现 它 用 0(1) 时 间 。 

在 tree-balancing 算法 情况 下 ， 旋 转 允 许 修改 树 的 形状 同时 并 保持 搜索 树 的 性 质 。 如 果 
使 用 得 当 ， 这 样 的 操作 可 以 避免 非常 不 平衡 的 树 结构 。 例 如 ， 图 11-8 中 第 一 个 向 右 旋转 到 
第 二 个 向 右 旋转 使 子 树 Ty 中 的 每 个 节点 的 深度 减少 了 1， 同时 使 子 树 T. 的 每 个 节点 的 深度 
增加 了 1 ERR, To 子 树 的 节点 的 深度 没有 受 旋转 的 影响 )。 

在 一 棵 树 内 部 ， 可 以 将 一 个 或 多 个 旋转 合并 来 提供 更 广泛 的 平衡 。 这 样 的 复合 操作 ， 我 们 称 
之 为 trinode 重组 。 对 于 这 个 操作 ， 我 们 考虑 一 个 位 置 Y， 其 父亲 节点 为 ?， 其 祖父 节点 为 ze H 
标 是 重建 以 z 为 根 的 子 树 ， 以 缩短 到 x 位 置 和 其 子 树 的 总 体 路 径 长 度 。 代 码 段 11-9 和 图 11-9 分 别 
给 出 了 restructure(x) 函数 的 伪 代 码 和 示意 图 。 在 描述 重建 平衡 树 的 过 程 中 ， 我 们 暂时 命名 位 置 
Xx、 及 z 分 别 为 a、b 和 c。 因 此 在 7 的 中 序 遍 历 中 ,a 先 于 5b 并 且 5 先 于 c。 如 图 11-9 ta, A 
4 种 可 能 的 方向 来 映射 x+、y、z fla. b, co JEFE ERR b 表示 的 节点 来 替换 z 节点 ,使 得 该 节点 
的 孩子 是 a 和 c， 并 使 a 和 c 的 孩子 节点 是 x、y 和 z (RT x Aly) 先前 的 4 个 孩子 节点 ， 同 时 保 
持 了 了 中 所 有 节点 的 中 序 次 序 关 系 。 


代码 段 11-9 ”二 又 搜索 树 的 重 构 操作 





图 11-8 二 又 搜索 树 的 旋转 操作 。 可 以 从 左 到 右 
执行 一 个 旋转 ， 或 者 从 右 到 左 执行 一 个 旋 
转 。 注 意 ， 在 子 树 7 中 ， 所 有 键 都 比 x 位 
置 的 键 小 ; 在 子 树 中 ， 所 有 键 的 大 小 都 
在 x 位 置 和 yy 位置 的 键 的 大 小 之 间 ; FEF 
树 7; 中 ， 所 有 键 比 y 位 置 的 键 大 


Algorithm restructure(x): 
Input: A position x of a binary search tree T that has both a parent y and a 
grandparent z 
Output: Tree T after a trinode restructuring (which corresponds to a single or 
double rotation) involving positions x, y, and z 
1: Let (a, b, c) be a left-to-right (inorder) listing of the positions x, y, and z, and 
let (T1, T2, T3, T4) be a left-to-right (inorder) listing of the four subtrees of x, 
y. and z not rooted at x, y, or z. 
2: Replace the subtree rooted at z with a new subtree rooted at b. 
3: Let a be the left child of b and let Ti and T» be the left and right subtrees of a, 
respectively. 
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4: Let c be the right child of b and let T4 and T, be the left and right subtrees of 
c, respectively. 


在 实践 中 ， 由 旋转 重建 操作 造成 的 树 了 的 修改 可 以 通过 单个 旋转 〈 见 图 11-9a 和 图 11- 
9b) 或 者 双 旋 转 〈 见 图 11-9c 和 图 11-9d) 的 案例 分 析 来 实现 。 当 位 置 x 是 3 个 相关 联 的 键 的 
中 间 值 并 且 首 先 被 旋转 到 其 父母 之 上 ， 然 后 又 被 旋转 于 原来 的 祖父 母 之 上 的 情况 下 会 产生 双 
旋转 。 在 任何 情况 下 ， 旋 转 重建 都 可 以 在 OCT) 时 间 内 完成 。 





图 11-9 旋转 重建 操作 的 示意 图 : a) Alb) 需要 一 次 旋转 ，c) 和 d) 需要 两 次 旋转 


平衡 搜索 树 的 Python 框架 LinkedBinaryTree |. MapBase | 

— GEN ea] | onem | 
我 们 在 11.1.4 35 4r 4H. T TreeMap A A 

类 ， 它 是 一 个 具体 的 映射 实现 ， 不 执行 

任何 显 式 的 平衡 操作 。 然 而 ， 我 们 设计 


| 

uem] 
了 一 个 类 作为 基 类 以 便 实现 更 高 级 的 
tree-balancing 算法 的 子 类 。 继 承 层次 


人 
AVLTreeMap | | SplayTreeMap | |RedBlackTreeMap| 
结构 的 总 结 如 图 11-10 所 示 。 a RE M id 


平衡 操作 的 钩子 图 11-10 平衡 搜索 树 的 层次 (引用 平衡 搜索 树 的 定义 )。 
11.1.4 节 的 基本 映射 操作 实现 部 分 回想 一 下 ，TreeMap 继承 了 LinkedBinaryTree 
主要 包括 调用 3 个 非 公 开 方 法 作为 平衡 和 MapBase 类 
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算法 的 钩子 : 

e。 在 位 置 p SINR TAA WENT  setitem _ 方 法， 
rebalance insert (p)。 

e 每 次 一 个 节点 从 树 中 删除 时 调用 rebalance delete(p), fu E p 的 父 节 点 已 经 确认 被 移 
除了 。 在 形式 上 ， 这 个 钩子 从 内 部 被 称 为 公共 的 delete(p) 方法 ， 它 是 间接 调用 公共 
方法 delitem__(k) 的 方法 。 

e FETA [t—T- £I F rebalance access (p)， 当 使 用 如 — getitem _ 等 公共 方法 访问 
树 中 位 置 p 的 节点 时 被 调用 。 伸 展 树 结构 ( 见 11.4 节 ) 使 用 这 个 钩子 重建 一 棵 树 ， 使 
得 接近 于 根 的 节点 被 更 频繁 地 访问 。 

我 们 在 代码 段 11-10 中 提供 了 这 3 种 方法 的 简单 声明 一 一 只 有 函数 名 ， 没 有 函数 体 (使 

用 pass 语句 )。TreeMap 的 一 个 子 类 可 能 会 重 写 这 些 方 法 来 实现 一 个 重要 的 方法 来 平衡 树 。 
这 是 模板 方法 设计 模式 的 另 一 个 例子 ， 和 8.4.6 节 中 描述 的 类 似 。 


代码 段 11-10 TreeMap 类 的 附加 代码 ( 接 代码 段 11-8 )， 提 供 平 衡 挂钩 的 存根 
174 def rebalance insert(self, p): pass 
175 def _rebalance_delete(self, p): pass 
176 def rebalance access(self, p): pass 


. setitem _ 方法 内 部 会 调用 _ 


旋转 和 重组 的 非 公 开 方 法 

第 二 种 支持 平衡 搜索 树 的 形式 是 非 公 开 的 _rotate 和 _restructure 方法 ， 它 们 分 别 实现 单 
一 旋转 和 trinode 重组 (E 11.2 节 开 头 描 述 )。 尽 管 这 些 方法 并 不 被 公开 的 TreeMap 操作 调 
H, 但 是 我 们 通过 在 这 个 类 中 提供 这 些 实现 来 让 它们 被 所 有 平衡 树 的 子 类 继承 ， 从 而 促进 代 
码 重用 。 

实现 在 代码 段 11-11 中 给 出 。 为 了 简化 代码 ， 我 们 定义 一 个 额外 的 relink 实用 方法 ， 
用 以 正确 关联 父亲 和 和 孩子 节点 ， 包 括 没有 孩子 节点 的 特殊 情况 。_rotate 方法 的 焦点 就 变 成 了 
重新 定义 父亲 和 孩子 之 间 的 联系 ， 直 接 将 旋转 节点 和 原来 的 祖父 母 进行 关联 ， 然 后 在 旋转 节 
点 中 移 除 “中 间 ” 子 树 (在 图 11-8 "PH T 表示 )。 对 于 trinode 重组 ， 我 们 决定 执行 是 否 单 
个 旋转 还 是 双 旋 转 ， 如 图 11-9 所 示 的 那样 。 


代码 段 11-11 TreeMap 类 的 附加 代码 ( 接 代码 段 11-10 )， 为 平衡 搜索 树 的 子 类 提供 非 公 开 的 实用 程序 
177 def .relink(self, parent, child, make_left_child): 


178 """ Relink parent node with child node (we allow child to be None).""" 
179 if make. left child: # make it a left child 

180 parent. left — child 

181 else: # make it a right child 

182 parent. right — child 

183 if child is not None: # make child point to parent 
184 child... parent = parent 

185 

186 def _rotate(self, p): 

187 """ Rotate Position p above its parent." "" 

188 x = p._node 


y = x..parent 


# we assume this exists 


190 z = y..parent # grandparent (possibly None) 
191 if z is None: 

192 self. root = x # x becomes root 

193 x..parent = None 

194 else: 

195 self. relink(z, x, y —— z. left) # x becomes a direct child of z 


196 # now rotate x and y, including transfer of middle subtree 

197 if x == y. left: 

198 self. relink(y, x. right, True) # x. right becomes left child of y 
199 self. relink(x, y, False) # y becomes right child of x 

200 else: 

201 self. relink(y, x._left, False) # x. left becomes right child of y 
202 self. relink(x, y, True) # y becomes left child of x 

203 

204 def restructure(self, x): 

205 """ Perform trinode restructure of Position x with parent/grandparent." " " 
206 y = self. parent(x) 

207 z = self. parent(y) 

208 if (x == self.right(y)) == (y == self.right(z)): # matching alignments 
209 self. rotate(y) # single rotation (of y) 
210 return y # y is new subtree root 
211 else: # opposite alignments 
212 self._rotate(x) # double rotation (of x) 
213 self. rotate(x) 

214 return x # x is new subtree root 
创建 树 节 点 工厂 


在 设计 TreeMap 类 和 原始 的 LinkedBinaryTree 子 类 时 ， 我 们 注意 到 一 个 重要 的 微妙 细 
节 。LinkedBinaryTree KIM ARK Node 类 提供 节点 的 底层 定义 。 然 而 ， 我 们 的 几 个 树 平 
衡 策 略 要 求 辅助 信息 被 存储 在 每 个 节点 来 指导 平衡 过 程 。 这 些 类 将 会 重 写 骨 套 类 _Node 类 
来 为 一 个 额外 的 字段 提供 存储 。 

每 当 将 新 节点 添加 到 树 中 时 ， 在 LinkedBinaryTree (最 初 在 代码 段 8-10 中 给 
定 ) B add right 方法 中 ， 我 们 特意 使 用 语法 self. Node 实 例 化 节点 ， 而 不 是 限定 名 称 
LinkedBinaryTree.Node。 这 对 框架 很 重要 ! 当 表 达 式 self. Node 是 应 用 于 一 个 (+) WHY 
类 的 一 个 实例 时 ，Python 的 名 称 解 析 遵 循 继承 结构 (如 2.5.2 节 中 所 述 ) 。 如 果 一 个 子 类 重 
写 _Node 类 的 定义 ，self. Node 实例 化 时 将 使 用 新 定义 的 节点 类 。 这 种 技术 是 工厂 方法 设 
计 模 式 的 一 个 例子 ， 我 们 提供 了 一 个 子 类 的 方法 控制 节点 的 类 型 ， 它 是 在 父 类 的 方法 内 创 
建 的 。 


11.3 AVL fy 


使 用 标准 二 又 搜索 树 作 为 数据 结构 的 TreeMap 类 ， 应 该 是 一 种 有 效 的 映射 数据 结构 ， 
但 对 于 各 种 操作 其 最 糟糕 的 表现 是 线性 的 时 间 ， 因 为 有 可 能 是 一 系列 的 操作 结果 产生 了 具有 
线性 高 度 的 树 。 在 本 节 中 ， 我们 描述 一 种 简单 的 平衡 策略 ， 可 保证 对 所 有 基本 的 映射 操作 来 
说 最 坏 情况 下 是 对 数 的 运行 时 间 。 

AVL 树 的 定义 

对 二 又 搜 索 树 的 定义 简单 地 进行 修正 是 添加 一 条 规则 : 对 树 维持 对 数 的 高 度 。 虽 然 我 
们 最 初 定义 以 位 置 p 为 根 的 子 树 的 高 度 为 从 根 节点 位 置 p 到 叶子 节点 的 最 长 路 径 的 边 的 数量 
(JL 8.1.3 5), 但 是 本 节 考 虑 在 最 长 路 径 上 节点 的 数量 作为 树 的 高 度 更 容易 理解 。 根 据 这 个 
定义 ， 一 片 叶 子 位 置 高 度 为 1， 我 们 定义 “null” 和 孩子 的 高 度 是 0。 

在 本 节 中 ， 我 们 考虑 下 面 的 高 度 平 衡 属 性 ， 就 其 节点 的 高 度 而 言 ， 这 体现 了 二 又 搜索 树 
T 的 结构 。 

高 度 平衡 属性 : 对 于 7 中 每 一 个 位 置 p, p 的 孩子 的 高 度 最 多 相差 1 。 

任何 满足 高 度 平衡 属性 的 二 又 搜索 树 了 被 称 为 AVL 树 ， 以 发 明 家 的 名 字 的 首 字母 命名 : 


Adel'son-Vel'skii 和 Landis。AVL 树 的 一 个 例子 如 图 11-11 所 示 。 

高 度 平衡 所 带 来 的 一 个 直接 结果 是 AVL 树 子 树 
本 身 就 是 一 棵 AVL 树 。 高 度 平衡 属性 也 带 来 同样 一 个 
重要 的 结果 ， 即 可 以 保持 高 度 最 小 ， 如 下 面 的 命题 。 

命题 11-2 : 一 棵 存 有 nn 个 节点 的 AVL 树 的 高 度 
是 O(log n). 

WEBB: 我 们 不 是 试图 直接 找到 一 个 AVL 树 的 高 
度 的 上 限 ， 而 更 容易 找到 一 个 “反问 题 "， 即 找到 一 
个 高 度 为 h 的 树 的 最 小 节点 数 n(h) 的 下 界 。 我 们 将 ”图 11-11 AVL 树 的 一 个 例子 , 项 的 键 显 





证 明 n(h) 至 少 成 指数 增长 。 由 此 ,很 容易 得 到 存 有 nn 示 在 节点 里 ， 节 点 的 高 度 显 示 在 
个 节点 AVL 树 的 高 度 是 O(log n); 节点 上 面 (空子 树 的 高 度 为 0 ) 


首先 指出 n(1) 214122) = 2， 因 为 一 棵 高 度 为 1 
的 AVL 树 必须 只 有 一 个 节点 且 一 棵 高 度 为 2 的 AVL 树 必须 至 少 有 两 个 节点 。 现 在 ,一 棵 高 
BEA AW AVL 树 的 最 小 节点 数 为 h 三 3， 这样 两 棵 子 树 都 是 具有 最 小 节点 数 的 AVL 树 : 一 
棵 高 度 h -1， 男 一 棵 高 度 为 h 一 2。 从 根 开始 计算 ,我 们 得 到 以 下 n(h) 5 n(h — 1) fl n(h - 2) 
关系 的 公式 ， 其 中 hh 二 3: 
n(h)=1+n(h-1)+n(h-2) (11-1) 
在 这 一 点 上 ， 熟 悉 斐 波 那 契 数列 的 性 质 (1.8 节 和 练习 C-3.49) 的 读者 已 经 知道 n(h) 是 
一 个 关于 hh 的 指数 函数 。 为 了 形式 化 这 一 观察 我 们 进行 如 下 操作 。 
式 (11-1) 意味 着 n(h) 是 关于 4 的 严格 递增 函数 。 因 此 ， 我 们 知道 n(h — 1) > n(h - 2)。 
在 式 (11-1 ) 中 用 n(h - 2) (RF nh 一 1) 并且 舍 弃 1, RISE A m 3 时 ， 
n(h) > 2n(h — 2) (11.2) 
式 (11-2) 表明 每 次 n Jn 2 B, n(h) 至 少 增 加 一 倍 ， 这 意味 着 n(h) 会 成 指数 增长 。 为 
了 用 一 个 正式 的 方式 展示 这 一 事实 ， 我 们 重复 应 用 式 ( 11-2 )， 产 生 以 下 一 系列 不 等 式 : 
n(h)>2n (h-2)»4n (h-4)>8n (h-6)--->2'n (h-2i) (11-3) 
也 就 是 说 ， 对 于 任何 整数 六 Æ n(h) > 2'n(h - 2i), KIE h- 2 三 1。 因 为 已 经 知道 n(1) 
的 值 和 n(2) 的 值 ， 所 以 选择 使 得 -2i 等 于 1 或 2 的 i。 也 就 是 说 ， 选 择 : 


B 


将 上 面 i 的 值 代入 式 (11-3 ) rP, 得到， 对 于 hh 二 3: 
n(h) > Ji. (i22 n] > JP -n(1) = D (11-4) 
5 > > 2 
通过 对 式 (11-4) 两 边 取 对 数 ， 得 到 : 
log(n(h)) > 2-1 
进而 得 到 : 
h < 2log (n(h)) + 2 
说 明了 存 有 nn 个 节点 的 AVL 树 的 高 度 最 大 为 2log n+ 2. * 


由 命题 11-2 和 11.1 节 中 给 出 的 二 叉 搜 索 树 的 分 析 ， 针 对 getitem 操作， 映射 用 
AVL 树 实现 ， 运 行 时 间 为 O(log 六 ,其 中 二 是 映射 中 项 的 数量 。 当 然 , 我 们 仍然 需要 展示 在 
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插入 或 者 删除 之 后 如 何 保持 高 度 平衡 属性 。 


11.3.1 更 新 操作 


给 定 一 棵 二 又 搜索 树 7， 如 果 孩 子 之 间 的 高 度 差 的 绝对 值 最 多 为 1， 则 该 位 置 是 平衡 
的 ， 否 则 我 们 说 它 是 不 平衡 的 。 因 此 ，AVL 树 的 高 度 平衡 属性 相当 于 每 个 位 置 都 是 平衡 的 。 

AVL 树 的 插入 和 删除 操作 开始 类 似 于 相应 的 (标准 ) 二 又 搜索 树 的 操作 ， 但 因为 受到 改 
变 的 不 利 影响 对 每 一 部 分 恢复 平衡 所 进行 操作 的 后 期 处 理 是 不 一 样 的 。 

插入 

假设 在 插入 一 个 新 项 目 之 前 ， 树 了 满足 高 度 平衡 属性 ， 则 树 7 是 一 棵 AVL 树 。 在 一 棵 
二 叉 搜 索 树 中 搬入 新 节点 ， 如 11.1.3 节 所 述 的 ， 在 叶子 节点 忆 的 位 置 产 生 了 一 个 新 节点 。 这 
个 操作 可 能 违反 了 高 度 平衡 属性 ( 见 图 11-12a)， 然 而 ， 唯 一 可 能 会 变 得 不 平衡 的 位 置 是 P 
的 祖先 ， 因 为 那些 位 置 是 其 子 树 唯 一 变化 过 的 位 置 。 因 此 ， 我 们 接 下 来 描述 如 何 重建 7， 以 
解决 任何 可 能 发 生 的 不 平衡 。 





a) b) 
图 11-12 图 11-1 的 一 个 例子 : 在 AVL 树 中 插入 键 为 54 的 项 : a) 加 入 键 为 SA 的 新 节点 后 ， 键 为 78 
和 44 的 节点 变 得 不 平衡 ; b) 高 度 平衡 属性 的 重 构 。 把 节点 的 高 度 写 在 了 上 面 ， 在 重 构 操 作 
过 程 中 定义 节点 x、y、z 和 子 树 T,. T. T, A T, 


我 们 通过 一 个 简单 的 “查找 和 修复 ”策略 来 恢复 二 又 搜索 树 中 节点 的 平衡 。 特 别 是 ， 用 
z 是 从 p SIR 了 的 方向 中 遇 到 的 第 一 个 位 置 ， 因 此 z 是 不 平衡 的 ( 见 图 11-12a)。 同 样 ， 用 
表示 z 的 具有 更 高 高 度 的 孩子 GER, y 必 须 是 p 的 一 个 祖先 )。 最 后 ,假设 x 是 y 具 有 
更 高 高 度 的 孩子 (不 能 有 并 列 ， 并 且 x 也 必须 是 p 的 一 个 祖先 或 者 p 自身 )。 我 们 通过 调用 
trinode 重建 方法 restructure (x) (最 初 在 11.2 节 中 描述 的 ) 对 以 z 为 根 的 子 树 进行 再 平衡 。 
图 11-12 描述 了 这 样 一 个 AVL 树 插入 重组 的 例子 。 

为 了 正式 证 明 这 个 过 程 在 重建 AVL 高 度 平衡 属性 时 的 正确 性 ， 我 们 考虑 z 是 插入 p 之 
后 变 得 不 平衡 的 最 近 的 p 的 祖先 。y 的 高 度 由 于 插入 增加 了 1， 并 且 现 在 比 它 的 兄弟 节点 
大 2。 因 为 ?保持 了 平衡 ， 它 原来 的 子 树 必须 具有 相同 高 度 ， 而 且 包 含 x 的 子 树 高 度 增加 了 
1。 它 的 子 树 或 者 因为 x =p 高 度 增加 了 ， 所 以 它 的 高 度 从 0 变 到 1, 或 者 因为 x 之 前 有 等 
高 子 树 然后 包含 p 的 子 树 高 度 增加 了 1o Sh 三 0 表示 x 的 最 高 的 孩子 的 高 度 ， 这 个 场景 如 
图 11-13 所 示 。 

trinode 重组 后 ,我 们 可 以 看 到 x、y、z 都 平衡 了 。 此 外 , 在 重组 之 后 成 为 子 树 的 根 的 节 
点 的 高 度 为 h+2， 这 正 是 z 在 插入 新 节点 之 前 的 高 度 。 因 此 ， 任何 变 得 暂时 不 平衡 的 z 的 
祖先 又 恢复 了 平衡 ， 这 一 重组 恢复 了 全 局 的 高 度 平衡 属性 。 





图 11-13 在 对 AVL 树 进 行 典型 的 插入 操作 期 间 子 树 的 再 平衡 过 程 : a) 插入 之 前 ; b) 在 子 树 T 进行 
插入 操作 导致 了 z 的 不 平衡 ; c) 用 trinode 重组 进行 重建 平衡 之 后 。 注 意 ， 在 插入 操作 之 后 ， 
子 树 的 总 高 度 和 插入 操作 之 前 一 样 


删除 

回想 一 下 ， 对 一 个 普通 二 又 搜索 树 结构 进行 删除 操作 将 导致 一 个 节点 拥有 零 或 一 个 孩 
子 。 这 样 的 改变 可 能 违反 AVL 树 的 高 度 平衡 属性 。 特 别 是 ， 如 果 p 代表 在 树 了 中 删除 节点 
的 父 节点 ， 可 能 有 一 个 不 平衡 的 节点 在 p 到 根 节点 之 间 的 路 径 上 LA 11-14a)。 事 实 上 ， 
最 多 可 以 有 一 个 这 种 不 平衡 的 节点 (这 一 事实 的 证 明 留 作 练 习 C-11.49 )。 





图 11-14 删除 图 11-12b 中 AVL 树 上 键 为 32 的 项 。a) 删除 存储 键 为 32 的 节点 之 后 ， 根 变 得 不 平衡 ; 
b) 一 次 (Fk) 旋转 会 恢复 高 度 平衡 属性 


与 搬入 一 样 ， 我 们 使 用 trinode 重组 恢复 树 T 的 平衡 。 特 别 是 ， 用 z 表示 在 7 中 从 p 向 
根 的 方向 上 遇 到 的 第 一 个 不 平衡 位 置 。 同 样 ， 用 y 表示 z 的 具有 更 高 高 度 的 孩子 (注意 , y 
是 z 的 孩子 , 但 不 是 p 的 祖先 )， 并 按 如 下 定义 令 x By 的 孩子 : 如 果 y 的 一 个 孩子 比 另 一 个 
高 , 令 x 是 y 的 较 高 的 孩子 ; 否则 (y 的 两 个 孩子 有 相同 的 高 度 ), 令 x 是 与 y 在 同一 边 的 y 
的 孩子 (也 就 是 说 ， 如 果 y 是 z 的 左 孩子 , 令 x 为 y 的 左 孩 子 ; 否则 , 令 x 为 y 的 右 孩 子 )。 
在 以 上 任何 情况 下 ， 我 们 进行 restructure (x) 操作 ( 见 图 11-14b)。 

在 trinode 重组 操作 过 程 中 ， 重 组 子 树 是 以 中 间 位 置 b AR. fk b 的 子 树 内 局 部 地 重建 
可 以 保证 高 度 平衡 属性 ( 见 练习 R-11.11b 和 R-11.12 )。 不 幸 的 是 ， 这 种 trinode 重组 可 能 会 
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使 以 5 为 根 的 子 树 的 高 度 减少 1， 这 可 能 会 导致 b 的 祖先 变 得 不 平衡 。 所 以 ,对 2 进行 再 平 
衡 之 后 ， 我 们 继续 在 了 中 寻找 不 平衡 的 位 置 。 如 果 找 到 另 一 个 ， 则 执行 重组 操作 来 恢复 它 的 
平衡 ， 并 且 继 续 沿 着 7 向 上 寻找 更 多 的 不 平衡 位 置 ， 一 直到 根 节点 。 不 过 , 了 的 高 度 是 
O(log n)， 其 中 nn 是 项 的 数量 ， 由 命题 | 

11-2 可 知 ，O(log n) 内 的 trinode 重组 足以 ne po i 


恢复 高 度 平 衡 属性 。 var A. 
AVL 树 的 性 能 AS ———— ol) 
由 命题 11-2 可 知 ， 有 2 个 节点 的 uus LELEA 
AVL 树 的 高 度 是 O(log n)。 因 为 标准 二 又 COMES AM 00 am) 
搜索 树 的 操作 的 运行 时 间 受 高 度 的 限制 
( 见 表 11-1 )， 因 为 在 保持 平衡 因素 和 重组 ed : 
一 棵 AVL 树 的 额外 工作 中 受 树 中 路 径 的 ”最 坏 情况 下 所 用 时 间 : O(log n) 
长 度 的 限制 ， 对 于 AVL 树 ， 传 统 的 映射 图 11-15 对 AVL 树 进行 搜索 和 更 新 的 运行 时 间 。 








操作 的 运行 时 间 为 最 坏 的 对 数 时 间 。 我 每 级 性 能 是 O), DA FERNE: (一 般 包 
们 在 表 11-2 中 总 结 了 这 些 结果 ， 并 在 图 括 搜索 过 程 ) 和 上 升 阶 段 (一 般 包 括 更 新 
11-15 中 举例 说 明了 这 种 性 能 。 高 度 值 和 执行 局 部 trinode 重组 (旋转) ) 
表 11-2 对 有 nn 个 节点 的 AVL 树 进行 操作 的 最 坏 运行 时 间 ， 其 中 s 表示 由 find range 报告 的 项 的 数目 
操 4 运行 时 间 

kinT O(log n) 

T[k] =v O(log n) 

T.delete(p), del T[k] O(log n) 

T.find position(k) O(log n) 

T.first(), T.last(), T.find min(), T.find max() O(log n) 

T.before(p), T.after(p) O(log n) 

T.find It(k), T.find le(k), T.find gt(k), T.find ge(k) O(log n) 

T.find range(start, stop) O(s + log n) 

iter(T), reversed(T) O(n) 


11.3.2 Python 实现 


代码 段 11-12 和 代码 段 11-13 给 出 了 一 个 AVLTreeMap 类 的 完整 实现 。 它 继承 了 标准 
TreeMap 类 并 且 依 赖 11.2 节 中 描述 的 平衡 框架 。 我 们 强调 两 个 重要 方面 : 首先 ，AVLTreeMap 
HE TREK Node 的 定义 (如 代码 段 11-12 所 示 )， 目 的 是 为 了 将 存储 在 一 个 节点 的 子 树 的 
高 度 保存 起 来 提供 支持 。 我 们 还 提供 了 几 个 包含 节点 高 度 和 关联 位 置 的 实用 程序 。 


EE 11-12 AVLTreeMap 类 ( 后 接 代 码 段 11-13 ) 


class AVLTreeMap(TreeMap): 
""" Sorted map implementation using an AVL tree." "" 


1 

2 

3 

4 并 -一 一 一 一 一 -一 一 -一 一 一 - nested -Node class -一 一 一 一 一 一 一 一 一 -一 

5 class .Node(TreeMap.. Node): 

6 """ Node class for AVL maintains height value for balancing." "" 

7 --slots.. — ' height' # additional data member to store height 
8 
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9 def __init__(self, element, parent=None, left=None, right=None): 
10 super( )... init... (element, parent, left, right) 
11 self. height = 0 # will be recomputed during balancing 


13 def left height(self): 


14 return self. left. height if self. left is not None else 0 

15 

16 def right height(self): 

17 return self. right. height if self. right is not None else 0 


代码 段 11-13 AVLTreeMap 类 ( 接 代码 段 11-12 ) 


18 dE positional-based utility methods ------------------------- 
19 def recompute. height(self, p): 
20 p.-node..height = 1 + max(p.. node.left height(), p.-node.right_height( )) 


22 def .isbalanced(self, p): 
23 return abs(p.. node.left height( ) — p.-node.right_height()) <= 1 


25 def _tall_child(self, p, favorleft=False): # parameter controls tiebreaker 
26 if p._node.left_height( ) + (1 if favorleft else 0) > p._node.right_height(): 


27 return self.left(p) 
28 else: 
29 return self.right(p) 


31 def _tall_grandchild(self, p): 
32 child = self._tall_child(p) 


33 # if child is on left, favor left grandchild; else favor right grandchild 
34 alignment = (child == self.left(p)) 

35 return self. tall child(child, alignment) 

36 

37 def .rebalance(self, p): 

38 while p is not None: 

39 old height = p._node._height # trivially 0 if new node 

40 if not self. isbalanced(p): # imbalance detected! 

4] # perform trinode restructuring, setting p to resulting root, 

42 # and recompute new local heights after the restructuring 

43 p — self. restructure(self. tall grandchild(p)) 

44 self. recompute height(self.left(p)) 

45 self. recompute. height(self.right(p)) 

46 self. recompute. height(p) # adjust for recent changes 
47 if p. node. height == old_height: # has height changed? 

48 p = None # no further changes needed 
49 else: 

50 p = self.parent(p) # repeat with parent 

51 

52 —————— override balancing hooks --------------------------— 
5 def _rebalance_insert(self, p): 

54 self. rebalance(p) 

55 

56 def rebalance delete(self, p): 

57 self. rebalance(p) 


为 了 实现 AVL 平衡 策略 的 核心 逻辑 ， 我 们 定义 了 一 个 名 为 _rebanlance 的 实用 程序 ， 它 
可 以 在 插入 或 删除 之 后 恢复 高 度 平 衡 属性 时 作为 一 个 挂钩 。 虽 然 针 对 插 和 人 和 删除 继承 行为 有 
很 大 的 不 同 ， 但 是 对 AVL 树 的 必要 后 期 处 理 是 一 致 的 。 在 这 两 种 情况 下 ， 我 们 从 发 生变 化 
的 位 置 p 向 上 ， 重 新 根据 (更 新 的 ) 孩子 的 高 度 计算 每 个 位 置 的 高 度 ， 如 果 到 达 一 个 不 平衡 
位 置 ， 就 使 用 trinode 重组 操作 。 如 果 到 达 一 个 通过 整体 映射 操作 高 度 也 不 变 的 祖先 ， 或 者 
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执行 trinode 重组 使 得 子 树 拥有 和 映射 操作 之 前 相同 的 高 度 ， 我 们 会 停止 该 过 程 ; 更 高 层次 
的 祖先 的 高 度 将 不 会 改变 。 为 了 检测 停止 条 件 ， 我 们 记录 每 个 节点 的 “ 旧 ” 的 高 度 ， 并 将 其 
和 最 新 计算 的 高 度 进 行 比较 。 


11.4 RH 


下 一 个 学 习 的 搜索 树 的 结构 ， 我 们 称 之 为 伸展 树 。 这 种 结构 从 概念 上 完全 不 同 于 本 章 中 
讨论 的 其 他 平衡 搜索 树 ， 因 为 伸展 树 在 树 的 高 度 上 没有 一 个 严格 的 对 数 上 界 。 事 实 上 ， 伸 展 
树 无 须 有 和 额外 的 高 度 、 平 衡 或 与 此 树 节点 关联 的 其 他 辅助 数据 。 

伸展 树 的 效率 取决 于 某 一 位 置 移动 到 根 的 操作 ( 称 为 伸展 )， 每 次 在 插入 、 删 除 或 者 甚至 
搜索 都 要 从 最 底层 的 位 置 p 开始 (在 本 质 上 ， 这 是 7.6.2 节 探 讨 的 向 前 启发 式 搜索 树 的 一 个 
变形 )。 直 观 上 讲 ， 伸 展 操作 会 使 得 被 频繁 访问 的 元 素 更 快 接近 于 根 ， 从 而 减少 典型 的 搜索 
时 间 。 关 于 伸展 的 令 人 惊讶 的 事情 是 ， 它 对 插入、 删除 、 搜 索 操 作 保证 了 对 数 的 运行 时 间 。 


11.4.1 伸展 


已 知 二 又 搜索 树 7 的 一 个 节点 x， 我 们 通过 一 系列 的 重组 将 x 移动 到 7 的 根来 对 x 进行 
扩展 。 进 行 特定 的 重组 是 很 重要 的 ， 因 为 将 节点 x 移动 到 根 节点 了 仅仅 通过 一 些 序 列 的 重组 
是 不 够 的 。 我 们 将 x 向 上 移动 执行 的 特定 操作 取决 于 x 的 相对 位 置 、 其 父 节 点 y 和 x 的 祖先 
节点 z (如 果 存 在 的 话 )。 我 们 考虑 如 下 三 种 情况 : 

zig-zig 型 : 节点 x 和 父 节点 y 都 在 树 的 左边 或 者 树 的 右边 ， 如 图 11-16 所 示 。 我 们 在 保 
持 树 的 节点 中 序 的 情况 下 移动 节点 x， 使 y 节 点 为 x 节点 的 一 个 孩子 ， 并 且 使 zZ 节点 为 y 节 
点 的 一 个 孩子 。 





图 11-16 zig-zig 型 : a) 操作 前 ; b) 操作 后 。 还 有 男 一 种 对 称 的 结构 是 节点 x 和 yy 都 是 左 孩 子 


zig-zag 型 : 节点 x 和 节点 yy 一 个 是 左 孩 子 ， 另 一 个 是 右 孩子 ( 见 图 11-17 )。 在 这 种 情 
WUE, 我们 在 保持 树 的 节点 中 序 的 情况 下 移动 节点 x， 使 其 拥有 孩子 节点 y 和 z。 





图 11-17 zig-zag 型 : a) 操作 前 ; b) 操作 后 。 还 有 另 一 种 对 称 的 结构 是 节点 x HEF, My 为 左 孩 子 
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zig 8. x 没有 祖父 节点 ( 见 图 11-18 ) 。 在 这 种 情况 下 ， 我 们 在 保持 树 节 点 中 序 的 情况 
下 进行 单 次 旋转 ,将 x 提升 到 yy 之 上 ,使 得 节点 为 节点 x 的 孩子 节点 。 





图 11-18 zig 3: a) 操作 前 ; b) 操作 后 。 还 有 另 一 种 对 称 的 结构 是 节点 工 为 节点 了 的 左 孩 子 


可 以 发 现 ， 当 节点 x 有 一 个 祖父 节点 时 ， 可 以 执行 zig-zig 型 或 zig-zag 型 ， 当 节点 x 没 
有 祖先 节点 时 可 以 执行 zig 型 ,我们 通过 对 节点 x 进行 重复 的 重组 进行 伸展 ， 直 到 节点 x AE 
为 伸展 树 的 根 节点 。 伸 展 的 一 个 节点 例子 如 图 11-19 和 图 11-20 Fras. 





a) b) c) 


图 11-19 伸展 一 个 节点 的 例子 : a) 从 节点 14 开始 用 zig-zag 型 ; b) 使 用 zig-zag 型 旋转 后 ; c) 下 一 
步 将 使 用 zig-zig 型 (后 接 图 11-20 ) 





d) e) f) 


图 11-20 伸展 一 个 节点 的 例子 : d) 使 用 zig-zig 型 伸展 后 ; e) 下 一 步 又 是 使 用 zig-zig 型 ; f) 使 用 
zig-zig 型 伸展 后 〈 接 图 11-19 ) 


11.4.2 ” 何 时 进行 伸展 
何 时 进行 伸展 的 规则 如 下 : 
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e SRR KIN, MRAM AE p, WR p; 和 否则， 在 搜索 失败 的 位 置 伸展 叶子 
节点 。 例 如 ， 图 11-19 和 图 11-20 分 别 展示 了 当 搜 索 键 14 成 功 或 者 搜索 键 15 失败 时 
的 伸展 情况 。 

e 当 插 入 键 X 时 ,我 们 将 伸展 新 插入 的 内 部 节点 kk。 例如 ， 图 11-19 和 图 11-20 展示 了 
如 果 14 是 新 插入 的 键 的 情况 。 图 11-21 展示 了 在 伸展 树 中 的 一 系列 插入 操作 。 








a) b) c) d) e) 
图 11-21. 在 伸展 树 中 的 一 系列 插入 : a) 初始 树 ; b) 插入 3 后 ， 但 是 在 zig 型 变化 前 ; c) 伸展 后 ; d) fü 
入 2 后 , 但 是 在 zig 型 变化 前 ; e) 伸展 后 ; f) 插入 4 后 , 但 是 在 zig-zig 型 变化 前 ; g) 伸展 后 


e XMR kIT, EME p 进行 伸展 ， 其 中 p 是 被 移 除 节 点 的 父 节点 ; 回想 二 又 搜 索 树 
的 删除 算法 ， 删 除 节 点 可 能 是 原来 包含 的 节点 上， 或 一 个 有 替代 键 的 后 代 节 点 。 删 除 
节点 的 一 个 例子 如 图 11-22 所 示 。 





图 11-22 从 伸展 树 中 删除 : a) 从 根 节点 删除 8 是 通过 将 中 序 次 序 的 先驱 w 的 键 移动 到 根 ， 删 除 w， 
然后 对 w 的 父 节 点 p 进行 伸展 来 实现 ; b) 利用 zig-zig 型 伸展 树 的 节点 p ; c) zig-zig 型 伸 
展 后 ; d) 下 一 步 将 是 zig 型 旋转 ; e) zig 型 伸展 后 


11.4.3 Python 实现 


RGR 11-14 Splay TreeMap 类 的 完整 实现 


class Splay TreeMap(TreeMap): 
""" Sorted map implementation using a splay tree." "" 
其 -一 splay operation -------------------------------- 
def .splay(self, p): 
while p !— self.root(): 
6 parent — self.parent(p) 
ri grand — self.parent(parent) 


| 
2 
3 
4 
3 
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8 if grand is None: 

9 # zig case 

10 self._rotate(p) 

H1 elif (parent == self.left(grand)) == (p == self.left(parent)): 


12 # zig-zig case 

13 self. rotate(parent) # move PARENT up 
14 self._rotate(p) # then move p up 
15 else: 

16 # zig-zag case 

17 self. rotate(p) # move p up 

18 self. rotate(p) # move p up again 
19 

rr override balancing hooks —--------------------------- 
21 def _rebalance_insert(self, p): 

22 self. splay(p) 


24 def .rebalance. delete(self, p): 


等 if p is not None: 
26 self. splay(p) 
27 


28 def _rebalance_access(self, p): 
29 self. splay(p) 


虽然 伸展 树 性 能 的 数学 分 析 是 复杂 的 ( 见 11.4.4 节 )， 但 对 一 棵 标准 二 又 搜索 树 进行 伸 
展 实现 是 相当 简单 的 。 代 码 段 11-14 基于 底层 的 TreeMap 类 并 且 利用 11.2 节 的 平衡 框架 描 
述 对 SplayTreeMap 类 提供 了 一 个 完整 的 实现 。 重 要 的 是 ， 要 注意 原来 的 TreeMap 类 调用 
 rebalance access 方法 ,不 仅 在 ”getitem ”方法 内 部 调用 rebalance access 方法 ， 还 在 修 
改 与 现 有 的 键 关联 的 值 ， 并 在 任何 导致 搜索 失败 的 映射 操作 之 后 使 用 __setitem _ 方法 时 调 
用 rebalance access 方法 。 


11.4.4 伸展 树 的 摊 销 分 析 * 

经 过 zig-zig 型 或 zig-zag 型 伸展 后 , p 节点 深度 减少 两 层 ; 经 过 zig 型 伸展 后 , p 节点 
深度 减少 一 层 。 因 此 ， 如 果 p 节点 的 深度 为 4， 则 伸展 树 的 p 节点 由 一 系列 |4/2 | 的 zig-zig 
型 和 /或 zig-zag 型 组 成 ， 如 果 4d 是 奇数， 最 后 再 加 上 一 个 zig 型 。 因 为 一 个 简单 的 zig-zig 
型 、zig-zag 型 或 zig 型 伸展 影响 一 定常 数 数量 的 节点 ， 它 可 以 在 0(1) 时 间 完 成 。 因 此 ,在 
一 棵 二 又 搜 索 树 中 对 位 置 p 进行 伸展 需要 的 时 间 为 O(q9)， 其 中 4 是 7T 树 中 位 置 p 的 深度 。 
换 句 话说 ， 从 位 置 p 的 伸展 所 消耗 的 时 间 等 同 于 从 根 的 位 置 到 p 位 置 自 上 而 下 的 搜索 。 

最 坏 情 况 下 的 时 间 

在 最 坏 情 况 下 ， 因 为 搜索 的 位 置 可 能 是 树 上 最 深 的 位 置 ， 所 以 对 一 棵 高 度 为 h 的 伸展 树 
进行 搜索 、 插 人 或 删除 的 全 部 运行 时 间 是 0(h)。 此 外 ， 如 图 11-21 R, h 最 大 可 能 接近 n。 
因此 ， 从 最 坏 情况 来 看 ， 伸 展 树 不 是 一 个 好 的 数据 结构 。 

尽管 在 最 坏 情况 下 的 性 能 较 差 ， 但 伸展 树 在 摊 销 的 意义 上 表现 良好 。 那 是 因为 在 一 系列 
的 混合 搜索 、 插 入 和 删除 操作 中 ， 平 均 每 一 个 操作 需要 的 时 间 为 对 数 时 间 。 下 面 运 用 统计 方 
法 对 伸展 树 进行 推销 分 析 。 

伸展 树 的 摊 销 性 能 

对 于 我 们 的 分 析 ， 可 以 注意 到 ， 进 行 搜索 、 插 入 或 删除 的 时 间 与 进行 伸展 的 开销 时 间 成 
正比 。 所 以 接 下 来 我 们 只 考虑 伸展 时 间 。 

设 T 是 有 nn 个 节点 的 伸展 树 ，w 是 树 7 的 一 个 节点 ， 定 义 以 w 为 根 的 子 树 的 节点 数量 
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大 小 为 n(w)。 我 们 可 以 注意 到 这 个 定义 意味 着 非 叶 子 节点 的 数量 是 超过 它 的 孩子 节点 数量 
的 。 定 义 节 点 w 的 阶 为 r(w)，r(w) 是 以 2 为 底 的 对 数 的 结果 ， 即 r(w) = log(n(w)). WA, T 
的 根 有 最 大 的 大 小 n 以 及 最 大 阶 log(n)， 每 片 叶 子 的 大 小 是 1 且 阶 为 0。 

用 cyber-dollars 来 表示 在 树 T 中 伸展 一 个 位 置 p 的 花费 ， 假 设 一 个 zig 型 伸展 需要 一 
个 cyber-dollar, zig-zig 型 或 zig-zag 型 则 需要 两 个 cyber-dollar。 因 此 ， 在 深度 为 4 的 位 置 p 
的 花费 是 d cyber-dollars。 我 们 在 了 树 中 每 个 位 置 保留 一 个 虚拟 的 账户 存储 cyber-dollar。 注 
意 ， 这 个 账户 只 在 进行 摊 销 分 析 的 时 候 存 在 ， 而 不 包含 在 实现 一 个 伸展 树 的 数据 结构 中 。 

进行 伸展 时 的 统计 分 析 

进行 伸展 时 ， 我们 需要 一 定数 量 的 cyber-dollars (具体 的 开销 将 由 最 终 的 分 析 决 定 )。 将 
分 为 三 种 情况 : 

e 如 果 开 销 等 于 伸展 工作 ， 我 们 用 全 部 的 cyber-dollar 来 支付 伸展 。 

e 如 果 开 销 大 于 伸展 工作 ， 我 们 把 多 出 的 cyber-dollar 存在 几 个 节点 的 账户 。 

e 如 果 开 销 小 于 伸展 工作 ， 我 们 从 几 个 节点 的 账户 取款 ， 以 补偿 不 足 之 处 。 

下 面 证 明 每 次 操作 O (log(n)) cyber-dollars 足够 保持 系统 的 工作 ， 即 确保 每 个 节点 保持 
非 负 账户 余额 。 

不 变 账 户 的 伸展 树 

在 需要 向 外 伸展 的 工作 时 ， 我 们 使 用 一 个 计划 转移 账户 之 间 的 节点 以 确保 总 是 会 有 足够 
的 cyber-dollars 支付 伸展 工作 。 

为 了 使 用 会 计 方 法 来 执行 分 析 ， 我 们 保持 下 列 引 理 不 变 : 

在 伸展 之 前 和 之 后 ,，T 中 每 个 节点 的 w 在 它 的 账户 中 有 rr(w)cyber-dollars。 

请 注意 ， 不 变 的 是 “财政 稳健 "， 因 为 它 不 需要 我 们 做 一 个 初步 存款 来 赋予 一 棵 树 。 

令 r( 站 是 了 中 所 有 节点 的 阶 的 总 和 。 为 了 保持 在 伸展 之 后 不 变 ， 我 们 必须 使 支付 等 于 
伸展 工作 加 上 rD 的 总 和 。 我 们 指 的 是 以 单个 的 zig、zig-zig 或 者 zig-zag 操作 作为 一 个 子 
步骤 。 此 外 ， 我 们 分 别 表示 一 个 节点 前 和 之 后 的 一 个 节点 的 阶 为 r(w) 和 r'(w)。 以 下 命题 
给 出 了 一 个 r(7) 由 于 单个 伸展 子 步骤 造成 的 上 限 。 我 们 会 反复 在 从 一 个 节点 到 根 的 全 伸展 
的 分 析 中 使 用 这 个 引 理 。 

命题 11-3 : 对 于 T 了 中 的 节点 x， 令 6 是 由 于 单个 伸展 子 步骤 (一 个 zig、zig-zig 或 者 
zig-zag) 造成 的 xr(7T) 的 变化 。 我 们 有 以 下 : 

e 5 三 3(r'(x) - r(x)) 一 2， 如 果子 步骤 是 zig-zig 或 者 zig-zag. 

e 6 x 3(r'(x) - r(x)), WRI 3 3 X zig. 

WEAR: 使 用 如 下 事实 (参见 命题 B-1， 附 录 A)， 即 如 果 a>0, b» 0JfH c» ba, 

log a + log b «21logc-2 ( 11-6) 
考虑 每 种 类 型 的 向 外 伸展 的 子 步 骤 造 成 的 xr(7) 的 变化 。 

zig-zig : 如 图 11-16 所 示 ， 由 于 每 个 节点 的 大 小 是 比 它 的 两 个 孩子 大 1 或 者 2， 注意 ， 
在 单 次 zig-zig 操作 中 只 有 x、y、z 的 阶 变 化 , 是 x 的 父 节 点 ,，z 也 是 了 的 父 节 点 。 而 且 rw) = 
r(z), r'o) <r), 并 且 r(x) s ry) FA, 

ô — r'(x) + r'(y) + r'(z) — r(x) — r(y) - r(z) 
=r'(y) + r'(z) - r(x) - rO) s r'(x) + r'(z) - 2r(x) (11-7) 
ER, n(x) +n <n). PRU ræ) +r) < 2r'(x) -2， 就 像 式 (11-6): 
r'(z) « 2r'(x) —r(x) - 2 
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这 个 不 等 式 和 式 (11-7 ) 可 以 简写 为 : 
ó < r'(x) + (2r'(x) — r(x) - 2) - 2r(x) S 3(r'(x) - r(x)) - 2 
zig-zag : 如 图 11-17 所 示 , 一 开始 ， 定 义 大 小 和 阶 ， 仅 仅 是 x、y、z 的 阶 改变 。y 为 x 
的 父 节 点 ，z 是 y BTA, Hre) < ry) < raz) =r (x) Alt: 
à = r'(x) + r'() + r'(z) - rŒ) - ro) —r(z)=r0) +r(2) - rŒ) - rO) s r'Q) + r'(z) - 2r(x) 
注意 n'o) + n'(z) < n'G), Alt r'o) + r(2) < 2r'(x) -2, AA (11-6 )。 因 此 ， 
6 < 2r'(x) - 2 - 2r(x) = 2(r'(x) - r(x)) - 2 < 3(r'(x) - r(x))-2 
Zig: 如 图 11-18 所 示 ， 在 这 种 情况 下 , x 和 y 的 阶 改变 。y 是 x 的 父 节 点 。 而 且 
r'(y) € r(y), r(x) = r(x) 
ô = r(y) + r'(x) - r(y) - r(x) S r'(x) - r(x) S 3(r'(x) - r(x)) Ej 
命题 11-4 : 令 T 为 根 为 1 的 伸展 树 , SA ArT) 在 一 个 深度 为 d 的 节点 的 全 变化 。 我 
们 有 : 
A < 3(r(t) -r(x))=d+2 
证 明 : 伸展 包含 c =( 4/2 | 伸展 子 步骤 的 节点 x*， 每 个 子 步骤 是 zig-zig 或 zig-zag。 如 果 
d 是 奇数 ， 则 最 后 一 个 步骤 是 zig。 令 ro(x) = r(x) Ax 的 最 初 的 阶 ， 对 于 i= 1,…, c,， 令 ri(x) 
为 第 i 个 子 步骤 之 后 x 的 阶 ,， 并且 令 56; 为 由 第 i 个 子 步 又 造 成 的 x(7) 的 变化 。 由 命题 11-3 
可 知 ， 由 x 的 伸展 造成 的 7(7) 的 总 变化 A : 
A=) 5, 2«Y36)-7,09) -2 
23(r. (x) 209) - 2e 2 &3(r(0) -t(x)) - d +2 Ex] 
由 命题 11-4 可 知 ， 如 果 对 节点 x 的 伸展 支付 3(0(D) - r(x) + 2 cyberdollars， 我 们 有 足 
够 的 cyber-dollars 保持 不 变 ， 在 7 的 每 个 节点 w 中 保持 r(w)， 并 为 伸展 工作 支付 4 cyber- 
dollars, FAFA 1 的 大 小 是 n， 它 的 阶 r(1) = log n。 鉴 于 r(x) 三 0， 伸展 工作 的 花费 是 O(log n) 
cyber-dollars。 为 了 完成 分 析 ， 我 们 要 对 一 个 节点 插入 或 删除 时 保持 不 变 计算 成 本 。 
-7 n 个 键 的 伸展 树 中 插入 一 个 新 节点 w 时， w 的 所 有 祖先 的 阶 都 增加 了 。 也 就 
tz, wo, Wa J w 的 祖先 ， 其 中 wo = w, wi 是 wi 的 父 节 点 , wa 是 根 。 对 于 i= 1,- 
d, &n'(w) a nw) 分别 为 wi 插入 前 后 的 大 小 ， 并 且 令 r'(w:) 和 rw) 分 别 为 w, 插 入 之 前 和 
之 后 的 阶 。 我 们 有 
n'(w;) = n(w;) + 1 
MA, AF zw) +1 nwi+1)， 对 于 i=0,1,…,d 一 1， 每 一 个 i 在 以 下 这 个 范围 内 : 
r'(w,) =log(n'(w,)) = log(n(w,) +1) <log(n(w,,,)) =r(wa) 
因此 ， 由 插入 引起 的 (7) 的 总 变化 为 : 


YH) =r) < r0) 00.) 7709) 


- r'(w,)-r(w,) «logn 
因此 ， 当 一 个 新 节点 插入 时 O(log n), cyber-dollars 足以 维持 不 变 。 
当 从 及 n 个 键 的 伸展 树 中 删除 一 个 节点 w 时 ， 所 有 ww 的 祖先 的 阶 都 降低 了 。 因 此 ， 由 
于 删除 造成 的 x(n 的 总 变化 是 负 的 ， 当 一 个 节点 被 删除 时 ， 我们 不 需要 任何 支付 维持 不 变 。 
因此 ， 我 们 可 以 在 下 列 命题 中 总 结 摊 销 分 析 (有 时 被 称 为 伸展 树 的 “平衡 命题 ”)。 
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命题 11-5 : 考虑 一 棵 伸展 树 中 一 系列 的 m 个 操作 ， 每 一 个 是 搜索 、 插 入 或 删除 ， 从 只 
有 和 零 键 的 伸展 树 开始 。 同 时 ， 令 1 为 操作 i 之 后 树 中 键 的 数量 ,，n 是 插入 操作 总 数 ， 则 执行 
一 系列 操作 的 总 运行 时 间 : 


O(m > log n) 
i=l 


PP O(m log n). 

换 句 话说 ， 在 一 棵 伸展 树 中 执行 一 个 搜索 、 插 入 或 删除 的 摊 销 运行 时 间 复 杂 度 是 O(log n), 
其 中 是 伸展 树 的 大 小 。 因 此 ， 伸 展 树 可 以 以 对 数 时 间 摊 销 的 性 能 实现 有 序 ADT 映射 。 其 
挫 销 性 能 匹配 AVL 树 、(2、4 ) 树 和 红 黑 树 在 最 坏 情况 下 的 性 能 ,但 它 仅 使 用 一 棵 不 需要 存 
储 每 个 节点 的 附加 平衡 信息 的 简单 二 又 树 就 能 实现 这 样 的 性 能 。 此 外 ， 伸 展 树 有 许多 和 这 些 
其 他 平衡 搜索 树 不 同 的 有 趣 属性 。 我 们 在 以 下 命题 中 探讨 一 个 这 样 的 额外 属性 (有 时 被 称 为 
伸展 树 的 “静态 最 优 ” 的 命题 )。 

命题 11-6 : 在 伸展 树 上 考虑 一 系列 的 m 个 操作 ， 每 一 个 是 搜索 、 插 入 或 删除 ， 从 一 棵 
ALAR Re TI, Fa, AS (i) 表示 在 伸展 树 中 实体 i 被 访问 的 数量 ， 即 它 的 
频率 ， 用 有 hn 表示 条 目的 总 数 。 假 设 每 个 条 目 至 少 被 访问 一 次 ， 那 么 执行 这 一 系列 操作 的 总 运 
行 时 间 为 : 


O(m+ Ý fÒ log! f) 


此 处 省 略 这 一 命题 的 证 明 ， 但 它 并 不 像 别人 说 的 那样 难以 证 明和 想象 。 值 得 注意 的 是 ， 
这 个 命题 说 明 摊 销 访问 一 个 节点 i 的 运行 时 间 是 O(log(m / f(i)))« 


11.5 (2, 4) fi 

在 本 节 中 ， 我们 考虑 一 种 称 为 ( 2，4 ) 树 的 数据 结构 。 它 是 多 路 搜索 树 这 种 通用 数据 
结构 的 一 个 特殊 例子 。 在 多 路 搜索 树 中 ， 内 部 节点 的 孩子 节点 可 能 会 超过 两 个 。 其 他 形式 的 
多 路 搜索 树 将 在 15.3 节 中 讨论 。 


11.5.1 多 路 搜索 树 


回想 一 下 ， 通 用 树 被 定义 为 内 部 节点 可 能 会 有 很 多 的 孩子 。 在 本 节 中 ， 我 们 将 讨论 如 何 
将 通用 树 作为 多 路 搜索 树 使 用 。 映 射 项 以 (k, v) 形式 存储 在 搜索 树 中 , kE, v 是 和 键 相 关 
联 的 值 。 
多 路 搜索 树 的 定义 
令 w 为 有 序 树 的 一 个 节点 。 如 果 w 有 4 个 孩子 ， 则 称 w 是 d-node。 我 们 将 一 棵 多 路 搜 
索 树 定 义 为 一 棵 有 以 下 属性 的 有 序 树 7 (其 属性 在 图 11-23a HMH ): 
e 了 7 的 每 个 内 部 节点 至 少 有 两 个 孩子 。 也 就 是 说 ， 每 个 内 部 节点 是 一 个 d-node， 其 中 
d z 2s 
e 了 的 每 个 内 部 d-node w， 其 孩子 c1,…, ca 按 顺 序 存储 qd- 1788 — (EDGE Ck, vi), s (ss, 
Va- i), ki SS ka-10 
e HWE Lk) =- oo WI k,—- oo, SAE (k, v) 储存 在 一 个 以 ci 为 根 的 w 的 子 树 的 一 
个 节点 上 ,其 中 i= 13 =, d, ka Sk kio 
也 就 是 说 ， 如 果 认 为 存储 在 w 的 键 的 集合 包含 特殊 的 虚拟 键 和 =- oo Fil kg — oo, 那么 存储 
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在 以 孩子 节点 c; 为 根 的 了 的 子 树 上 的 键 上 一 定 是 存储 在 w 上 的 两 个 键 “ 之 间 ” 的 一 个 。 这 
个 简单 的 观点 产生 了 以 下 规则 : d-node FA d — 1 个 常规 键 ， 并 且 它 也 形成 了 在 多 路 搜索 树 
中 搜索 算法 的 基础 。 

根据 上 述 定 义 ， 多 路 搜索 的 外 部 节点 不 存储 任何 数据 并 且 仅 仅 作 为 “ 占 位 符 ”。 这 些 外 
部 节点 可 以 有 效 地 以 None 引用 表示 ， 就 像 我 们 在 二 又 搜索 树 中 约定 的 那样 (11.1 1). 3 
而 ， 为 了 拓展 ， 我 们 将 讨论 这 些 不 存储 任何 东西 的 实际 节点 。 基 于 这 个 定义 ， 在 一 棵 多 路 搜 
索 树 中 ， 键 — 值 对 的 数目 和 外 部 节点 的 数目 存在 有 趣 的 关系 。 

命题 11-7: -RA NAGA SBMEMA n+ 1 外 部 节点 。 我 们 把 这 个 命题 的 证 明 留 
作 练 习 (C-11.52 )。 





图 11-23 a) 多 路 搜索 树 7; b) 在 了 中 搜索 键 为 12 的 路 径 (不 成 功 搜索 ); c) 在 
T 中 搜索 键 为 24 的 路 径 (成 功 搜索 ) 


多 路 树 搜索 

在 多 路 搜索 树 7 中 搜索 键 为 的 节点 很 简单 。 我 们 在 7 中 从 根 节点 开始 跟踪 路 径 执 行 
搜索 ( 见 图 11-23b 和 图 11-23c)。 在 搜索 d-node 节点 内 时 ， 我 们 比较 键 上 和 存储 在 w 上 的 
键 乒 ，…， 心 -is 如 果 大 = 上 ,搜索 就 成 功 完 成 了 ; 和 否则， 继续 搜索 w 的 孩子 c， 使 得 ki-i < 
k< ki GARE ko =- o 和 态 =+o)。 如 果 到 达 外 部 节点 ， 那么 可 以 知道 树 了 中 没有 键 为 K 
的 节点 ， 搜 索 不 成 功 并 且 终 止 。 

主要 的 多 路 径 搜索 树 数据 结构 

在 8.3.3 节 中 ， 我 们 讨论 了 表示 通用 树 的 有 关 数 据 结 构 。 当 然 ， 这 也 可 以 用 来 表示 一 棵 
多 路 搜索 树 。 当 使 用 通用 树 来 实现 多 路 搜索 树 时 ， 我 们 必须 在 每 个 节点 存储 一 个 或 多 个 与 该 
节点 相关 联 的 键 - 值 对 。 也 就 是 说 ， 我 们 需要 存储 w 集合 的 一 个 引用 ， 集 合 中 存储 的 是 w 
的 项 。 
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在 多 路 搜索 树 中 搜索 键 上 时 ， 基 本 操作 是 找到 键 比 上 大 或 者 相等 的 节点 中 最 小 的 节点 。 
出 于 这 个 原因 ， 很 自然 地 将 节点 本 身 的 信息 作为 一 个 有 序 映 射 ， 同 时 允许 使 用 find ge(k) 77 
法 。 我 们 说 这 样 的 映射 可 以 作为 二 级 数据 结构 来 支持 由 整个 多 路 搜索 树 表示 的 初级 数据 结 
构 。 这 种 推理 看 起 来 就 像 一 个 循环 论证 ， 因 为 需要 用 (二 级 ) 有 序 映射 来 表示 (初级) 映射。 
但 是 ,我 们 可 以 使 用 一 种 简单 的 、 更 先进 的 解决 方案 ， 即 通过 使 用 bootstrapping 技术 来 避 
免 循环 依赖 。 

在 多 路 搜索 树 的 背景 下 ， 每 个 节点 的 二 级 数据 结构 的 理想 选择 是 10.3.1 节 的 Sorted 
Table Map 类 。 因 为 希望 确定 和 键 大 匹配 的 关联 值 ， 相 应 的 孩子 c; 使 得 oi kk, RIE 
议 在 二 级 数据 结构 上 将 每 个 键 操 映射 到 (v c) 对 。 有 了 多 路 搜索 树 了 的 上 述 实现 ， 处 理 一 个 
d-node w 节点 的 同时 对 具有 键 大 的 了 进行 搜索 可 以 通过 二 又 搜索 操作 在 O(log d) 内 实现 。 用 
dmax 表示 7 的 任何 节点 的 孩子 的 最 大 数目 ， 并 用 h 表示 树 7 的 高 度 。 多 路 搜索 树 的 搜索 时 间 
为 O(h log dmax)。 如 果 dm 是 一 个 常数 ， 则 执行 一 个 搜索 的 运行 时 间 为 Olh) 

多 路 搜索 树 的 首要 效率 目标 是 保持 高 度 尽 可 能 小 。 接 下 来 讨论 的 策略 是 : dau. 距离 限制 
在 4， 同 时 保证 高 度 刀 是 冯 的 对 数 ， 其 中 冯 为 保存 在 映射 中 节点 的 总 数 。 


11.5.2 (2, 4) 树 的 操作 


一 棵 多 路 搜索 树 需要 保持 存储 在 每 个 节点 的 二 级 数据 结构 很 小 ， 同 时 需要 保持 一 级 多 路 
平衡 树 是 (2，4 ) 树 (有 时 也 被 称 为 2-4 
树 或 2-3-4 树 )。 这 种 数据 结构 通过 维护 
如 下 两 个 简单 的 属性 来 实现 上 述 目 标 ( 见 
图 11-24 ): 

e 大 小 属性 : 每 个 内 部 节点 最 多 有 

4 个 孩子 。 
e 深度 属性 : 所 有 外 部 节点 具有 相 
同 的 深度 。 

再 次 强调 ， 假 设 外 部 节点 是 空 的 ， 并 且 为 了 简单 起 见 ， 描 述 搜索 和 更 新 方法 时 ， 假 设 外 
部 节点 是 真实 的 节点 ， 尽 管 后 面 的 要 求 并 不 严格 。 

维护 (2, 4) 树 的 大 小 属性 使 多 路 搜索 树 中 的 节点 非常 简单 。 它 也 有 一 个 另类 的 名 字 
“2-3-4 树 "”， 因 为 它 意味 着 每 个 内 部 节点 的 树 有 2 个 、3 或 4 个 孩子 。 这 条 规则 的 另 一 个 含 
义 是 ,我 们 可 以 使 用 一 个 无 序列 表 或 有 序数 组 来 表示 存储 在 每 个 内 部 节点 的 二 级 映射 ， 而且 
所 有 操作 仍 可 以 达到 O(1) 的 时 间 性 能 (因为 dau = 4 )。 对 于 深度 属性 ， 需 要 在 (2，4 ) 树 
的 高 度 上 执行 一 个 重要 的 约束 。 

命题 11-8: 存储 nn 个 节点 的 (2，4) 树 的 高 度 为 (logn). 

证 明 : $ hh 为 存储 n 个 节点 的 (2，4) 树 了 的 高 度 。 我 们 通过 式 (11-9) 证 明 该 命题 


+ log(n 1)ShAS log(n + 1) (11-9 ) 





K 11-24 (2, 4) $} 


为 了 证 明 这 种 说 法 应 先 注意 到 : 对 于 大 小 属性 ， 深 度 为 1 时 最 多 可 以 有 A 个 节点 ， 深 度 
为 2 时 最 多 可 以 有 到 个 节点 ， 以 此 类 推 。 因 此 ,7 树 的 外 部 节点 的 个 数 最 多 为 4。 同 样 ， 由 
深度 属性 和 (2, 4) 树 的 定义 ， 我 们 必须 至 少 有 2 个 深度 为 1 的 节点 ， 至 少 有 2? 个 深度 为 2 
的 节点 ， 以 此 类 推 。 因此 ， 在 7 树 中 ， 外 部 节点 的 数量 至 少 为 2。 此 外 ， 由 命题 11-7 可 知 ， 
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外 部 节点 的 数量 为 (n - 1 )， 因 此 得 到 
2zn-1x4 
对 以 上 公式 以 2 为 底 去 对 数 ， 得 到 
h < log(n + 1) < 2h 

当 项 被 重新 排列 时 ， 这 证 明了 式 11-9, L^] 

命题 11-8 声明 大 小 和 深度 属性 足以 保持 多 路 树 的 平衡 。 此 外 ， 这 一 命题 意味 着 在 (2,4) 
树 中 执行 搜索 需要 O(log n) 的 时 间 复 杂 度 ， 且 节点 的 二 级 数据 结构 的 具体 实现 不 是 一 个 关键 
的 设计 选择 ， 因 为 最 大 孩子 数量 dinax 是 一 个 常数 。 

然而 对 (2，4 ) 树 进 行 插入 和 删除 之 后 ， 保 持 大 小 和 深度 属性 需要 一 些 操作 。 接 下 来 我 
们 将 讨论 这 些 操作 。 

插入 

插入 一 个 键 为 上 的 新 节点 (k, v) 到 (2, 4) 树 了 7 中 ,首先 对 键 磊 执行 搜索 。 假 设 了 中 没 
有 键 为 k 的 节点 ， 这 个 搜索 非 正常 终止 于 外 部 节点 z 中 。 令 w 成 为 z 的 父母 节点 。 我 们 在 节 
点 w 上 插入 新 的 项 ， 并且 在 z 的 左边 对 w 添加 一 个 新 的 孩子 节点 y (外 部 节点 )。 


上 述 插入 方法 维持 了 深度 属性 ， 因 为 我 们 在 和 现 有 外 部 节点 相同 的 层级 添加 一 个 新 的 外 
部 节点 。 然 而 ， 它 可 能 违反 了 大 小 属性 。 
事实 上 ， 如 果 一 个 节点 w 以 前 是 4-node, 


那么 插入 后 它 将 成 为 一 个 S-node， 导 致 了 ke d 
树 不 再 是 (2, 4) 树 。 这 种 违反 节点 大  Chhhko CREED Ckhho CKD 
小 属性 的 情况 称 为 在 亦 节 点 溢出 ， 我 们 SELLER Lada RASA 
必须 解决 这 一 问题 以 恢复 (2,4) 树 的 a - » 
属性 。 令 c, …, cs 是 w 的 孩子 ，k,…, ks 
键 存 储 在 w 中 。 为 了 修复 节点 w 的 溢出 
问题 ， 我 们 对 w 执 行 以 下 分 裂 操 作 IL 
图 11-25 ): 
e Hw Aw RRA w, Hp: 

mW 是 存储 ky All kp 的 (其 孩子 节点 为 Ci, C2 €; ) 的 3-node。 

m W" 是 存储 局 (其 孩子 节点 为 c4, cs) 的 2-node. 

e 如 果 风 是 了 的 根 节点 ， 创 建 一 个 新 的 根 节点 &， 让 zx 成 为 w 的 父亲 节点 。 

e 插入 键 值 Blu, IEG w" Aw WRA u 的 孩子 节点 。 如 果 w 是 x 的 第 i 个 孩子 ， 

那么 w A w 将 分 别 为 的 第 i 个 和 第 i+ 1 个 的 孩子 节点 。 

由 于 节点 w 的 分 裂 操作 ，w 的 父 节点 u 可 能 会 发 生 溢出 。 如 果 发 生 溢出 ， 它 会 在 节点 4 
触发 一 个 分 裂 ( 见 图 11-26 ) 。 分 型 操作 消除 了 溢出 或 传播 到 当前 节点 的 父 节 点 。 在 (2，4) 
树 中 进行 一 系列 的 插入 操作 如 图 11-27 所 示 。 

(2, 4) 树 中 插入 操作 的 分 析 

因为 dns 最 多 为 4， 对 新 键 上 最 初 的 位 置 搜 寻 在 每 个 阶段 会 用 O) 时 间 ， 因 此 总 体 时 
间 为 O(log n)， 由 命题 11-8 得 到 树 的 高 度 为 O(log n). 

在 单个 节点 插入 一 个 新 键 和 孩子 节点 的 修改 可 以 在 0(1) 时 间 内 实现 ， 一 个 分 裂 操 作 也 
是 如 此 。 级 联 分 裂 操作 的 数量 受到 树 的 高 度 限制 ， 这 一 阶段 插入 过 程 运 行 时 间 也 为 O(log n). 
因此 ,在 (2，4 ) 树 中 执行 插入 操作 的 总 时 间 是 O(log n)。 





图 11-25 节点 分 裂 : a) 5-node w 节点 的 溢出 ; b) w 
的 第 三 个 键 插入 到 w 的 父 节 点 u; c) 用 
3-node w' 和 2-node w" 替换 节点 w 
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KI 11-26 (2, 4) 树 的 插入 操作 发 生 了 分 裂 : a) 插入 前 ; b) 插入 17 发 生 了 溢出 ; c) 一 个 分 裂 ; d) 在 
分 裂 之 后 出 现 了 一 个 新 的 溢出 ; e) 另 一 个 分 裂 ， 创 建 一 个 新 的 根 节点 ; f) 最 后 的 树 


R ROAR AR 








k) 1) 


图 11-27 (2, 4) 树 的 一 系列 插入 操作 : a) 一 个 节点 的 初始 树 ; b) 插入 键 为 6 的 节点 ; c) 插 人 键 为 
12 的 节点 ; d) 插入 键 为 15 的 节点 ， 将 会 引起 溢出 ; e) 分 裂 ， 这 将 会 引起 创建 一 个 新 的 根 
节点 ; f) 分 裂 之 后 ; g) 插入 键 为 3 的 节点 ; h) 插入 键 为 5 的 节点 ， 引 发 了 溢出 ; i) 分 裂 ; 
j) 分 裂 之 后 ; k) 插入 键 为 10 的 节点 ; 1) 插入 键 为 8 的 节点 
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删除 

现在 考虑 在 (2, 4) 树 了 中 删除 键 为 大 的 节点 。 我 们 以 在 了 中 搜索 键 为 上 的 项 开始 。 从 
—^ C2, 4) 树 中 删除 项 可 以 简化 为 这 样 的 情况 : 删除 的 节点 存储 在 节点 w Cw 的 孩子 节点 是 
外 部 节点 )。 假 设 ， 实例 中 ， 所 要 移 除 的 键 为 的 项 存储 在 节点 z 的 第 i 个 项 (, vi)， 节 点 z 
AHN (ki, v) 只 有 内 部 节点 的 孩子 节点 。 在 这 种 情况 下 ， 我 们 和 一 个 合适 的 项 交换 了 (k vi), 
该 项 存储 在 带 有 外 部 节点 的 孩子 节点 的 如 下 节点 w 中 ( 见 图 11-28d): 

1) 最 右边 的 子 树 的 内 部 节点 w 在 以 z 的 第 i 个 孩子 为 根 的 子 树 上 。 注 意 ,，w 的 所 有 和 孩 
子 节点 都 是 外 部 节点 。 

2) Aw 的 最 后 一 个 节点 交换 节点 Z 的 (ki, Vi) o 

一 旦 确定 要 删除 的 项 存储 在 一 个 只 有 外 部 孩子 的 节点 w( 因 为 它 已 经 在 w 或 我 们 交换 成 w)， 
我 们 可 以 轻而易举 地 从 w 删除 节点 并 删除 w 的 第 i 个 外 部 节点 。 

如 上 所 述 ， 从 节点 w 上 删除 一 个 项 (及 其 孩子 )， 应 先 保存 深度 的 属性 ， 因 为 我 们 总 是 
删除 只 有 外 部 孩子 的 节点 w。 然 而 ， 在 消除 这 样 的 外 部 节点 时 ， 我 们 可 能 会 违反 w 节点 的 
大 小 属性 。 的 确 ， 如 果 w 以 前 是 2-node， 那 么 它 就 变 成 删除 之 后 没有 项 的 一 个 1-node (I 
图 11-28a 和 图 11-28d), Æ (2, 4) 树 中 这 是 不 允许 的 。 这 种 违反 大 小 属性 的 情况 称 为 在 节 
Hw FA. ATR Fä, 我 们 立即 检查 w 的 兄弟 节点 是 否 是 一 个 3-node 或 4-node。 如 果 
发 现 这 样 一 个 兄弟 s， 就 进行 转移 操作 ， 也 就 是 将 s 的 一 个 孩子 移 到 w E, Hs 的 一 个 键 移 
动 到 w Ms 的 父 节 点 wu E, Hi u 的 一 个 键 移动 到 w ( 见 图 11-28b 和 图 11-28c)。 如 果 w 只 有 
一 个 兄弟 或 者 兄弟 都 是 2-node， 就 进行 融合 操作 ,合并 w 及 其 一 个 兄弟 ， 创 建 一 个 新 节点 
w 并 将 w 的 父亲 节点 u 的 键 移 动 到 wo 





图 11-28 (2, 4) 树 的 一 系列 删除 操作 ; a) 删除 键 为 4 的 节点 ， 引 起 下 浇 。b) 交换 操作 ; c) 交换 操 
作 之 后 ; d) 删除 键 为 12 WR, Sle Pim; e) 合并 操作 ; D 合并 操作 之 后 ; g) 删除 键 为 
13 的 节点 ; h) 删除 操作 之 后 
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节点 w 处 的 融合 操作 可 能 导致 一 个 新 的 下 溢 发 生 在 w 的 父亲 节点 u 上 ， 进 而 触发 zx 交 
换 或 合并 COLE 11-29 )。 因 此 ,合并 操作 的 数量 是 有 界 的 ， 被 树 的 高 度 限制 ， 这 被 命题 11-8 
证 明 是 O(log n)。 如 果 下 淤 一 直 传 播 到 根 ， 那 么 根 被 删除 ( 见 图 11-29c 和 图 11-29d ) 。 





C6 1D 
C5) QD qs I» 





d) 


图 11-29 Æ (2, 4) 树 中 一 个 合并 的 传播 : a) 删除 键 为 14 的 节点 ， 引 起 下 溢 ; b) 合并 ， 引 起 其 他 
Ti; c) 第 二 个 合并 引起 根 被 删除 ; d) 最 后 的 树 


(2, 4) 树 的 性 能 

在 有 序 映 射 ADT 方 面 , (2, 4) 树 的 渐 近 性 能 是 和 AVL 树 一 样 的 ( 见 表 11-2), HK 
多 数 操作 都 保证 了 对 数 限制 。 有 nn 个 键 - 值 对 的 (2，4 ) 树 的 时 间 复 杂 度 的 分 析 基 于 以 下 
几 点 : 

e 由 命题 11-8 可 知 ， 存 储 n 节点 的 (2，4 ) 树 的 高 度 是 O(log n)。 

e 分 裂 、 交 换 或 合并 操作 需要 O) 时 间 。 

e 搜索 、 插 入 或 删除 一 个 节点 需要 访问 O(log n) 个 节点 。 

因此 , (2, 4) 树 提供 了 快速 映射 搜索 和 更 新 操作 。( 2，4 ) 树 也 和 接 下 来 要 讨论 的 数据 
结构 有 一 种 有 趣 的 关系 。 


11.6 H&H 


虽然 AVL 树 和 (2，4 ) 树 具有 许多 很 好 的 特性 ， 但 是 它们 也 有 一 些 缺 点 。 例 如 ，AVL 
树 删 除 后 可 能 需要 要 执行 的 多 重组 操作 (旋转 )，(2，4 ) 树 在 插入 和 删除 之 后 可 能 需要 进行 
许多 分 裂 或 融合 操作 。 在 本 章 中 ， 我 们 所 讨论 的 数据 结构 一 一 红 黑 树 没 有 这 些 缺 点 ， 在 一 次 
更 新 之 后 ， 它 使 用 0(1) 次 结构 变化 来 保持 平衡 。 

从 形式 上 讲 ， 红 黑 树 是 一 棵 带 有 红色 和 黑色 节点 的 二 又 搜索 树 ， 其 具有 下 面 的 属性 : 

e 根 属性 : 根 节 点 是 黑色 的 。 

e 红色 属性 : 红色 节点 (如果 有 的 话 ) 的 子 节点 是 黑色 的 。 

e 深度 属性 : 具有 零 个 或 一 个 子 节 点 的 所 有 节点 都 具有 相同 的 黑色 深度 (被 定义 为 黑色 

祖先 节点 的 数量 )。( 回 想 一 下 ， 一 个 节点 是 它 自 己 的 祖先 ) 
红 黑 树 的 一 个 例子 如 图 11-30 所 示 。 
可 以 注意 到 ， 红 黑 树 和 (2，4 ) 树 (不 包括 它们 的 琐碎 外 部 节点 ) 之 间 有 一 个 有 趣 的 对 
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应 使 红 黑 树 的 定义 更 为 直观 ， 即 给 定 一 棵 红 黑 树 ， 我 们 可 以 构建 一 棵 相应 的 (2，4 ) PE: A 
并 每 一 个 红色 节点 w 到 它 的 父 节 点 ， 从 w 存储 条 目 到 其 父 节点 ， 并 使 w 的 子 节点 变 得 有 序 。 
例如 ， 图 11-30 的 红 黑 树 对 应 图 11-24 WY (2, 4) 
树 ， 如 图 11-31 所 示 。 红 黑 树 的 深度 属性 与 (2, 4) 
树 的 深度 属性 相对 应 ， 因 为 红 黑 树 的 黑色 节点 为 相 
应 的 (2，4 ) 树 的 每 个 节点 提供 了 帮助 。 

相反 ， 我 们 可 以 通过 给 每 一 个 w 节点 着 黑色 ， 
然后 执行 下 面 的 转换 ( 见 图 11-32 )， 将 任何 (2,4) 





树 改变 为 相应 的 红 黑 树 。 di 
e 如 果 w 是 2-node, 那 么 保持 w 的 子 节 点 绘制 红 的 节点 。 这 棵 树 的 常 


(黑色 ) 是 2-node。 见 黑色 深度 为 3 
e 如 果 w 是 3-node， 那 么 创建 一 个 新 的 红色 
节点 y， 把 w 最 后 的 两 个 子 节点 (黑色 ) 给 
y, RAF y M w 的 第 一 个 子 节点 作为 w 的 ， 
两 个 子 节点 。 1 
如 果 w 是 4-node 点 ， 那么 创建 两 个 新 的 红 
色 节 点 y 和 z， 把 w 的 前 两 个 子 节点 (黑色 ) ue, edt 
给 y， 把 w 的 最 后 两 个 子 节点 (黑色 ) 给 z， 图 11-31 一 个 例子 ， 图 11-30 的 红 黑 树 对 





最 后 使 y 和 z 成 为 w 的 两 个 子 节点 。 应 于 图 11-24 的 (2, 4) 树 ， 基 
值得 注意 的 是 ， 在 这 种 结构 中 ， 一 个 红色 节点 于 红色 节点 及 其 黑色 父 节点 的 高 
总 是 有 二 个 黑色 父 节 点 。 亮 分 组 


命题 11-9 : 红 黑 树 存 储 n 个 条 目的 高 度 是 O 


(log n)» P - e. 
或 


证 明 : 设 了 是 存储 2 个 条 目的 红 黑 树 ， 并 设 
/为 了 的 高 度 。 我 们 通过 建立 以 下 事实 证 明 这 一 Q3 D 13 
命题 : | » (14) t 
log(n + 1)- 1 <A < 2log(n * 1) - 2 


设 d 是 具有 和 零 个 或 一 个 子 结 点 的 T 所 有 节点 7 
的 常见 黑色 深度 。 令 T 为 T 相 关联 的 (2, 4) 的 © 
H, FFAS A ET WE (不 包括 琐碎 的 叶子 节 
点 )。 由 红 黑 树 和 (2，4 ) 树 之 间 的 对 应 关系 可 知 
h'= qd。 因 此 ， 由 命题 11-8 可 得 , d=h' < log (n+ 
1 )-1。 由 于 红色 属性 得 , h < 24。 因 此 得 到 有 h < 2 
log(2+ 1) - 2。 其 他 不 等 式 log(n+1) 一 1 有 h 由 命题 8-8 以 及 T 具 有 nn 个 节点 的 事实 可 以 
得 出 。 a 


11.6.1 红 黑 树 的 操作 


红 黑 树 了 中 的 搜索 算法 与 标准 二 又 树 的 搜索 算法 是 相同 的 ( 见 11.1 节 )， 因此， 在 一 棵 
红 黑 树 中 进行 搜索 所 花费 的 时 间 与 树 的 高 度 成 正比 ， 由 命题 11-9 可 知 是 O(log n). 
(2, 4) 树 和 红 黑 树 之 间 的 对 应 关系 提供 了 很 重要 的 知识 ,我 们 将 会 在 讨论 如 何在 红 黑 


图 11-32 一 棵 红 黑 树 和 一 棵 (2，4 ) 树 节点 
之 间 的 对 应 : a) 2-node; b) 3-node; 
c) 4-node 
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树 上 执行 更 新 时 用 到 。 事 实 上 ， 如 果 没 有 这 个 知识 ， 对 于 红 黑 树 的 更 新 算法 就 显得 神秘 复杂 。 
(2, 4) 树 的 分 裂 和 融合 将 会 通过 重新 着 色 邻 居 的 红 黑 树 节 点 被 有 效 地 模仿 。 如 图 11-32b 所 
示 的 两 种 形式 ， 红 黑 树 的 旋转 将 被 用 于 改变 3-node 的 方向 。 

HA 

现在 考虑 将 键 值 对 Ck, v) 插入 到 红 黑 树 了 7 中。 该 算法 最 初 进程 是 作为 一 个 标准 的 二 又 
搜索 树 ( 见 11.1.3 节 )。 也 就 是 说 ， 在 7 中 搜索 k， 直 到 达到 一 个 空子 树 ， 然 后 在 这 个 位 置 插 
入 一 个 新 的 叶子 节点 x， 存 储 项 。 在 特殊 情况 下 ,x 是 7 的 唯一 节点 ， 因 此 将 根 着 色 为 黑色 。 
在 其 他 情况 下 ， 我 们 将 x 着 色 为 红色 。 这 个 动作 对 应 于 用 外 部 子 节点 将 (k, v) 插入 到 (2, 4) 
树 T 的 节点 中 。 这 种 插入 维持 了 7 的 根 属性 和 深度 属性 ,但 它 可 能 违反 红色 属性 。 事 实 上 ， 
WR RE THR, x 的 父 结 点 y 是 红色 的 ， BARA SH A e C yx) 都 是 红色 的 。 
值得 注意 的 是 ， 由 根 属性 可 知 y 不 能 是 7 的 根 ， 并 且 由 红色 属性 (这 在 以 前 是 满足 的 ) 可 知 
y 的 父母 z 必须 是 黑色 的 。 由 于 x 和 其 父 节点 是 红色 的 , 但 x 的 祖先 z 是 黑色 的 ,我们 将 这 种 
违反 红色 属性 的 情况 称 为 节点 x 处 的 双 红 色 。 为 了 解决 双 红 色 问 题 ， 我 们 考虑 以 下 两 种 情况 。 

情况 1 : 的 兄弟 姐妹 为 黑色 (或 无 )。 如 图 11-33 所 示 ， 在 这 种 情况 下 ， 双 红色 表示 ， 
我 们 已 经 添加 了 新 节点 到 对 应 的 (2, 4) BET’ f 3-node 处 ， 从 而 有 效 地 创建 异常 的 4-node。 
此 形式 有 一 个 红色 的 节点 (y) 是 另 一 个 红色 节点 (x) 的 父 节 点 ， 而 我 们 希望 它 有 两 个 红色 
节点 作为 兄弟 姐妹 。 要 解决 这 个 问题 ， 我 们 进行 了 了 的 trinode 重组 。 该 trinode 重组 由 操作 
restructure(x) 来 实现 ， 具 体 步 又 如 下 《再 次 参考 图 11-33 ， 该 操作 也 在 11.2 节 进 行 讨论 ): 

e 对 节点 x， 其 父 节点 y 和 祖先 节点 >， 按 照 从 左 到 右 的 顺序 ， 和 暂时 重新 标记 它们 为 a、 

b füc, VA a, b Fil c 将 按照 顺序 树 被 有 序 地 胃 历 。 

e 将 祖先 节点 z 用 标记 节点 5 取代, 使 a 和 cc 成 为 5 的 子 节点 ， 并 保持 次 序 关系 不 变 。 

在 进行 restructure(x) 的 操作 后 ， 我 们 将 b 着 色 为 黑色 ,将 a 和 c 着 色 为 红色 。 因 此 ， 
重组 消除 了 双 红 色 问 题 。 可 以 注意 到 ， 在 树 的 重组 部 分 的 任何 路 径 的 一 部 分 确实 只 有 一 个 黑 
色 的 节点 ， 在 进行 trinode 重 构 前 后 都 是 这 样 的 。 因 此 ， 树 的 黑色 深度 不 受 影响 。 





a) b) 
Fd 11-33 重组 红 黑 树 补救 双 红 问题 : a) 对 于 x、y、z 重组 之 前 的 4 种 配置 ; b) 重组 之 后 


情况 2 : y 的 兄弟 姐妹 是 红色 的 。 如 图 11-34 所 示 ， 在 这 种 情况 下 ， 双 红色 表示 在 相应 
的 (2, 4) 树 T 中 溢出 。 为 了 解决 这 个 问题 ， 我 们 进行 了 一 个 相当 于 分 裂 的 操作 ， 即 重新 
着 色 : 将 y 和 s 着 色 为 黑色 ,将 其 父 节点 z 着 色 为 红色 (除非 z 是 根 节点 ， 在 这 种 情况 下 ， 
它 仍 然 是 黑色 的 )。 在 这 里 我 们 可 以 注意 到 ， 除 非 z 是 根 节点 ,通过 该 树 的 有 影响 的 部 分 的 
任何 路 径 部 分 恰好 是 一 个 黑色 节点 ， 无 论 着 色 前 和 着 色 后 。 因 此 ， 树 的 黑色 深度 不 被 重新 着 
色 影 响 ， 除 非 z 是 根 节点 ， 在 这 种 情况 下 ， 它 增加 1。 

然而 ， 双 红 问 题 在 这 种 重新 着 色 问 题 之 后 可 能 再 次 出 现 ， 尽 管 在 了 树 的 更 高 位 置 ， 因 为 
z 可 能 有 一 个 红色 的 父 节 点 。 如 果 双 红 问 题 再 次 出 现在 z 节 点 ,那么 在 z 上 重复 考虑 两 种 情 
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况 。 因 此 ， 在 节点 x 上 重新 着 色 消 除了 双 红 问题 或 者 将 它 传播 到 x 的 祖先 节点 z。 我 们 继 
续 深度 搜索 7 进行 重新 着 色 直 到 解决 双 红 问 题 (最 后 重新 着 色 或 者 trinode 重组 )。 因 此 ， 通 
过 插入 引起 重新 着 色 的 数量 不 超过 树 深度 的 一 半 ， 即 由 命题 11-9 提出 的 O(log n)。 


10 20 30 40 


a) 


图 11-34 重新 着 色 补救 双 红 问题 : a) 分 裂 之 前 ， 对 与 相关 联 的 (2，4 ) 树 中 对 应 的 5-node 重新 着 色 ; 
b) 在 分 裂 之 后 ， 对 与 相关 联 的 (2，4 ) 的 树 中 的 相应 节点 重新 着 色 





作为 进一步 的 例子 ， 图 11-35 和 图 11-36 显示 了 在 红 黑 树 中 的 一 系列 插入 操作 。 





图 11-35 在 红 黑 树 中 进行 一 系列 插入 操作 : a) 初始 树 ; b) 7 的 插入 ; c) 12 的 插入 ， 引 起 双 红 现象 ; 
d) 重 构 之 后 ; e) 插入 15， 引 起 双 红 现象 ; f) 重新 着 色 ( 根 仍然 是 黑色 ); g) 插入 3; h) ff 
人 5 ; i) 14 的 插入 ， 引 起 双 红 现象 ; j) 重 构 之 后 ; KO 插入 12， 引 起 双 红 现象 ; 1) 重新 着 
色 之 后 。( 后 接 图 11-36 ) 


删除 

从 红 黑 树 了 中 删除 键 为 上 的 项 和 二 又 搜索 树 的 删除 过 程 相似 〈 见 11.1.3 节 )。 在 结构 上 ， 
这 种 处 理 结果 导致 删除 至 多 有 一 个 孩子 的 节点 (或 者 是 最 初 包含 的 节点 或 者 是 它 的 前 继 )， 
并 提升 其 剩余 的 子 节点 (如果 有 的 话 )。 

如 果 删 除 节点 是 红色 的 ， 这 种 结构 性 的 变化 不 会 影响 树 中 任何 路 径 的 黑色 深度 ， 也 没有 
任何 违反 红色 属性 ， 所 以 结果 树 仍然 是 有 效 的 红 黑 树 。 在 相应 的 (2，4 ) 树 了 中， 这 表示 
3-node 或 4-node 的 萎缩 。 如 果 删 除 的 节点 是 黑色 的 ， 那么 它 要 么 没有 孩子 要 么 它 有 一 个 子 
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节点 ， 这 个 子 节点 是 一 个 红色 的 叶子 节点 (因为 删除 的 节点 的 空子 树 黑色 高 度 为 0)。 在 后 
一 种 情况 下 ， 将 除去 的 节点 代表 一 个 相应 的 3-node 的 黑色 部 分 我们 通过 重新 将 提升 的 孩 
子 着 色 为 黑色 来 恢复 红 黑 属性 。 





图 11-36 在 红 黑 树 中 插入 一 个 序列 : m) 插入 16， 引 起 双 红 现象 ; n) 重 构 之 后 ; o) 插入 17， 引 起 双 
红 现 象 ; p) 重新 着 色 后 ， 再 次 出 现 双 红 现象 ， 通 过 重 构 进行 处 理 ; ) 重 构 之 后 ( 接 图 11-35 ) 


更 为 复杂 的 情况 就 是 一 个 CER) 黑色 叶 节 点 被 删除 。 在 相应 的 2-4 树 中 ， 这 表示 从 一 个 
2 节点 中 除去 一 个 项 目 。 这 种 变化 会 导致 沿 着 通 往 删 除 项 的 路 径 的 黑色 深度 不 足 。 根 据 需要 ， 
被 删除 的 节点 必须 有 子 树 黑色 高 度 为 1 的 兄弟 (假定 在 黑色 叶 节 点 删除 之 前 是 有 效 的 红 黑 树 )。 

为 了 补救 这 种 情况 ， 我 们 考虑 到 一 个 更 一 般 的 设 
置 ， 用 一 个 已 知 有 两 个 子 树 的 z 节 点 : Theavy 和 Tign, 
正好 Tien (如果 有 ) 的 根 节点 是 黑色 ， 同 时 Theavy 的 黑 
色 深 度 恰好 比 Tua 高 1， 如 图 11-37 所 示 。 在 一 个 除 
去 黑色 叶子 的 情况 下 ，z 是 该 叶子 的 父亲 ，7isew 是 删 
除 之 后 仍然 存在 的 空子 树 。 我 们 描述 更 一 般 情况 下 的 
不 足 ， 因 为 重新 平衡 树 的 算法 在 某 些 情况 下 将 把 树 中 
的 不 足 推 向 更 高 (就 像 (2， 4) 树 的 删除 解决 方案 有 间 的 不 足 。 灰 度 颜色 说 明 》 
时 会 级 联 向 上 )。 我 们 用 > 表示 Theavy 的 根 (存在 这 样 和 = 表示 着 以 下 事实 ， 这 些 
的 节点 ， 因 为 Tuy 的 黑色 深度 至 少 为 1 )。 节点 可 被 着 色 为 黑色 或 红色 。 

我 们 考虑 三 种 可 能 的 情况 以 弥补 不 足 。 

情况 1: 节点 yy 是 黑色 的 ， 同时 有 一 个 红色 的 孩子 节点 x ( 见 图 11-38 )。 执 行 trinode 重 
组 ， 正 如 最 初 11.2 节 所 描述 的 。 操 作 restructure(x) 需要 节点 x、 它 的 父 节 点 yy 和 祖先 节点 
z， 从 左 到 右 暂 时 将 它们 标记 为 a、b 和 <c， 并 用 标记 为 5 的 节点 取代 z， 使 其 成 为 其 他 两 个 
节点 的 父 节 点 。 我 们 将 a Alc 染色 为 黑色 ， 并 给 b 着 上 之 前 z 的 颜色 。 

注意 ， 重 组 之 后 的 结果 显示 Dua 路 径 中 包括 了 一 个 额外 的 黑色 节点 ， 从 而 弥补 了 不 足 。 
相反 ， 图 11-38 中 任何 其 他 三 个 子 树 黑色 节点 的 数量 仍然 保持 不 变 。 

解决 这 种 情况 对 应 于 (2，4 ) 树 (PE z 的 两 个 子 节点 之 间 的 转换 操作 。7 有 一 个 红色 节点 





图 11-37 节点 z 的 子 树 的 黑色 高 度 之 
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的 事实 向 我 们 保证 它 代 表 一 个 3-node 或 4-node。 实 际 上 ， 先 前 存储 在 z 中 的 项 被 降级 为 一 个 新 的 
2-node 来 解决 不 足 ， 而 存储 在 y 中 的 项 或 者 它 的 子 节点 得 以 提升 ， 取 代 原 先 存储 在 中 的 项 。 

情况 2: 节点 yp 是 黑色 ， 并且 y 的 两 个 子 节 点 是 黑色 (或 无 )。 解决 这 种 情况 相当 于 在 相 
“MA (2, 4) B T 中 进行 一 个 融合 操作 。 同 时 yy 必须 代表 一 个 2-node。 我 们 做 了 重新 着 色 : 
将 ?了 着 为 红色 ， 如 果 = 是 红色 的 ， 则 将 它 着 为 黑色 (JILE 11-39 )。 这 并 没有 违反 任何 红色 属 
性 ， 因 为 了 没有 红色 的 子 节点 。 





T 


light 


KI 11-38 通过 执行 trinode 重组 restructure(x) 图 11-39. fE Tim 中 通过 重新 着 色 操作 来 解决 


解决 Tisnt 处 的 一 个 黑色 不 足 。 两 种 可 黑色 不 足 。a) z 原 本 是 红色 的 ， Wi 
能 的 配置 如 图 所 示 (其 他 两 个 配置 是 倒 y 和 z 的 颜色 解决 了 黑色 的 不 足 ， 
对 称 的 )。 左 侧 图 中 z 的 灰色 部 分 表示 结束 进程 ; b) z 原 本 是 黑色 的 ， 重 
这 个 节点 可 能 被 着 成 黑色 或 者 红色 。 新 着 色 y 时 , z 的 整个 子 树 有 一 个 
重组 部 分 的 根 被 赋予 了 相同 的 颜色 ， 黑色 的 不 足 ， 需 要 级 联 的 补救 措施 


而 该 节点 的 子 节点 最 后 都 被 着 成 黑色 


在 = 原来 为 红色 的 情况 下 ， 相 应 的 (2，4 ) 树 中 ， 其 父 节 点 是 3-node 或 者 4-node， 这 
样 重新 着 色 解 决 了 不 足 。( 见 图 11-39a) 这 种 
方法 结果 导致 Tign 增加 了 一 个 额外 的 黑色 节 
点 ， 而 重新 着 色 没 有 影响 Thesw 的 子 树 路 径 
中 的 黑色 节点 的 数目 。 

在 z 原 来 的 颜色 为 黑色 的 情况 下 ， 相 应 ， 
的 (2, 4) 树 中 ， 其 父 节 点 是 2-node， 重 新 着 
色 没 有 增加 Tign 路 径 中 黑色 节点 的 数目 。 事 图 11-40 关于 红色 节点 y 和 黑色 节点 z 的 反 转 和 

















实 上 ， 它 减少 了 Theavy 路 径 中 黑色 节点 的 数目 重新 着 色 ， 假 设 z 有 一 个 黑色 的 不 足 。 
CULPA 11-39b)。 此 步骤 完成 后 ，z 的 两 个 孩子 这 相当 于 在 (2, 4) 树 中 相应 的 3-node 
将 具有 相同 的 黑色 高 度 。 然 而 ， 位 于 z 的 整 的 方向 变化 。 通 过 树 这 一 部 分 这 个 操 
个 树 根 变 得 不 足 ， 从 而 传播 问题 显得 更 高 了 ， 作 不 会 影响 任何 路 径 的 黑色 深度 。 此 
我 们 必须 重复 考虑 z 的 父亲 节点 的 所 有 三 种 外 ， 因 为 了 为 原本 是 红色 的 ,z 的 新 子 
情况 作为 补救 。 树 必须 有 一 个 黑色 的 根 y 和 一 个 等 同 于 

情况 3 : 节点 y 是 红色 的 ( 见 图 11-40 )。 因 Treavy 原先 的 黑色 深度 。 因 此 ， 转 变 之 


为 ?是 红色 的 ， 同 时 Theavy 有 至 少 为 1 的 黑 后 ， 节 点 z 仍然 存在 一 个 黑色 的 不 足 
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ERE, z 必须 是 黑色 的 , 的 两 个 子 树 必须 每 一 个 都 有 一 个 黑色 的 根 ， 并 且 黑 色 的 深度 等 于 
Theay 的 深度 。 这 种 情况 下 ， 我 们 把 > 和 = 进行 旋转 ， 然 后 重新 将 y 着 为 黑色 ， 将 = 着 为 红色 。 
这 是 指 在 一 个 相关 的 (2, 4) 树 中 一 个 3-node 的 重新 调整 ， 

这 并 不 能 立即 解决 不 足 ， 因 为 z 的 新 子 树 是 拥有 黑色 根 y' 的 一 个 y 的 旧 的 子 树 ， 同 时 其 
黑色 高 度 等 于 Thay 的 原 有 高 度 。 我 们 重新 采用 算法 来 解决 z 的 不 足 ， 已 知 新 的 子 节点 多 CHU 
Theavy 的 根 )， 现 在 是 黑色 的 ， 因 此 这 种 情况 适用 于 情况 一 或 者 情况 二 。 此 外 ， 下 一 个 应 用 将 
是 最 后 一 次 ， 因 为 第 1 种 情况 始终 能 终止 并 且 第 2 种 情况 将 会 终止 假定 z 是 红色 的 。 

在 图 11-41 中 ,我们 在 一 棵 红 黑 树 上 展示 了 一 系列 的 删除 操作 。 在 这 些 图 片 中 虚线 的 边 
Ak. We) 中 7 的 右边 展现 了 一 个 有 黑色 不 足 的 分 支 ， 目 前 尚未 得 到 解决 。 我 们 在 c) Rl d) 
中 展示 了 情况 一 的 重组 ,在 f) 和 g) 中 展示 了 情况 二 的 重新 着 色 。 最 终 反 转 i) 和 j) 两 个 部 
分 展现 情况 三 这 个 例子 ， 同 时 k) 表示 情况 二 重新 着 色 的 结束 。 





h) i) p k) 
图 11-41 在 红 黑 树 中 的 一 系列 删除 操作 : a) 初始 树 ; b) 删除 3; c) 删除 12， 造 成 7 右边 的 黑色 不 足 
(通过 重组 处 理 ) ; d) 重组 之 后 ; e) 删除 17 ; f) 删除 18， 造 成 16 右边 的 黑色 不 足 (通过 重 
新 着 色 处 理 ) ; g) 重新 着 色 之 后 ; h) 删除 15 ; i) 删除 16， 造 成 14 右边 的 黑色 不 足 (由 最 
初 的 旋转 处 理 ); j) 在 旋转 后 的 黑 赤字 需要 由 重新 着 色 处 理 ; k) 重新 着 色 


红 黑 树 的 性 能 
红 黑 树 的 渐 近 性 能 与 AVL 树 或 有 序 映射 ADT 282985 (2, 4) 树 的 渐进 性 能 相同 ， 对 于 
大 多 数 操作 保证 了 对 数 时 间 界 限 (AVL 性 能 的 总 结 见 表 11-2 )。 红 黑 树 的 主要 优点 在 于 插入 
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或 删除 只 需要 常数 步 的 调整 操作 (这 是 相对 于 AVL A (2, 4) 树 ， 在 最 坏 的 情况 下 ， 两 
者 的 每 个 映射 的 结构 调整 均 需 要 对 数 倍 的 时 间 操 作 )。 也 就 是 说 ， 在 红 黑 树 的 插 人 或 删除 操 
作 中 ， 搜 索 一 次 需要 对 数 级 时 间 ， 并 且 可 能 需要 对 数 倍 的 级 联 向 上 重新 着 色 操作 。 下 面 的 命 
题 显示 ， 对 于 单个 的 映射 操作 有 一 个 常数 数量 的 旋转 或 者 调整 操作 。 

命题 11-10 : 在 一 棵 存储 nn 个 项 目的 红 黑 树 中 插入 一 个 项 可 在 O(log n) 的 时 间 内 完成 ， 
并 且 需 要 O(log n) 的 重新 着 色 且 至 多 需要 一 次 的 trinode 重组 。 

证 明 : 回想 一 下 ， 插 入 开始 的 时 候 会 向 下 搜索 ， 创 建 一 个 新 的 叶 节 点 ， 然 后 一 个 潜在 向 
上 操作 会 造成 双 红 问题 。 可 能 有 很 多 对 数 运算 重新 着 色 ， 由 于 情况 2 应 用 的 向 上 级 联 ， 但 情 
况 1 行动 单一 的 应 用 消除 了 一 个 trinode 重组 双 红 问题 。 因 此 ， 一 个 红 黑 树 的 插入 至 多 需要 
一 次 重组 操作 。 di 

命题 11-11 : ERA ia n AR B 85 2c pp IER 478 TE O(log n) 的 时 间 内 完成 ， 
并 且 需 要 O(log n) 的 重新 着 色 且 最 多 需要 两 次 调整 操作 。 

证 明 : 删除 操作 始 于 标准 二 叉 搜 索 树 的 删除 算法 ， 所 需要 的 时 间 与 树 的 深度 成 正比 。 对 
于 红 黑 树 ， 深 度 为 O(log n)。 随 着 从 删除 节点 的 父 节点 一 直 向 上 操作 又 重新 平衡 。 

我 们 考虑 三 种 情况 以 补救 造成 的 黑色 不 足 。 情 况 1 需要 一 次 trinode 重组 操作 来 完成 过 
程 ， 所 以 这 种 情况 下 最 多 应 用 一 次 。 情 况 2 可 能 被 应 用 对 数 级 次 数 ， 但 是 它 仅 涉 及 每 个 应 用 
最 多 两 个 节点 的 重新 着 色 。 人 情况 3 需要 旋转 ， 但 这 种 情况 下 只 应 用 一 次 ， 因 为 如 果 旋 转 不 能 
解决 问题 ， 下 一 个 动作 将 是 情况 1 或 情况 2 终止 。 

在 最 坏 情况 下 ， 将 会 有 情况 2 的 O(log n) 次 重新 着 色 、 情 况 3 的 单个 旋转 以 及 情况 1 的 
一 次 trinode 重组 。 um 


11.6.2 Python 实现 


RedBlackTreeMap 类 通过 代码 段 11-15 ~ 11-17 的 代码 实现 。 它 继承 自 标 准 TreeMap 的 
类 ， 并 依赖 于 11.2 节 中 描述 的 平衡 框架 。 


代码 段 11-15 RedBlack TreeMap 类 的 开始 (后 接 代 码 段 11-16 ) 


| class RedBlackTreeMap(TreeMap): 

2 """ Sorted map implementation using a red-black tree." "" 
3 class Node(TreeMap.. Node): 

4 """ Node class for red-black tree maintains bit that denotes color." "" 

5 -.Slots... = ' red' # add additional data member to the Node class 
6 

7 def — init. (self, element, parent=None, left=None, right=None): 

8 super(). init... (element, parent, left, right) 

9 self. red — True # new node red by default 


代码 段 11-16 RedBlack TreeMap 类 的 继续 。( 接 代码 段 11-15， 后 接 代 码 段 11-17 ) 


10 }p----------+-------------- positional-based utility methods ---------------—-------- 
11 # we consider a nonexistent child to be trivially black 

12 def .set red(self, p): p. node. red = True 

13 def .set black(self, p): p..node._red = False 

14 def _set_color(self, p, make. red): p. node... red = make. red 

15 def _is_red(self, p): return p is not None and p.. node..red 

l6 def is red leaf(self, p): return self. is red(p) and self.is leaf(p) 


18 — def get red child(self, p): 
19 """ Return a red child of p (or None if no such child) 
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20 for child in (self.left(p), self.right(p)): 


21 if self. is red(child): 

22 return child 

23 return None 

24 

25 ft----—------------------- support for insertions ----------------------—- 

26 def _rebalance_insert(self, p): 

27 self._resolve_red(p) # new node is always red 
28 

29 def _resolve_red(self, p): 

30 if self.is_root(p): 

31 self. set black(p) # make root black 

32 else: 

33 parent — self.parent(p) 

34 if self. is red(parent): # double red problem 

35 uncle = self. sibling(parent) 

36 if not self. is red(uncle): # Case 1: misshapen 4-node 
37 middle = self. restructure(p) # do trinode restructuring 
38 self. set black(middle) # and then fix colors 

39 self. set red(self.left(middle)) 

40 self. set red(self.right(middle)) 

4l else: # Case 2: overfull 5-node 
42 grand — self.parent(parent) 

43 self. set red(grand) # grandparent becomes red 
44 self. set black(self.left(grand)) & its children become black 
45 self. set black(self.right(grand)) 

46 self. resolve red(grand) # recur at red grandparent 


代码 段 11-17 RedBlack TreeMap 类 的 总 结 ( 接 代码 段 11-16 ) 


47 # 一 一 -一 一 一 -- 一 -一 一 - support for deletions ---—----------------- 
48 def _rebalance_delete(self, p): 
49 if len(self) == 1: 


50 self._set_black(self.root()) & special case: ensure that root is black 
51 elif p is not None: 

52 n = self.num. children(p) 

53 if nc 1: # deficit exists unless child is a red leaf 
54 c — next(self.children(p)) 

55 if not self. is red leaf(c): 

56 self. fix. deficit(p, c) 

57 elif n == 2: # removed black node with red child 
58 if self. is red leaf(self.left(p)): 

59 self. set black(self.left(p)) 

60 else: 

61 self. set black(self.right(p)) 

62 

63 def fix deficit(self, z, y): 

64 """ Resolve black deficit at z, where y is the root of z's heavier subtree." "" 
65 if not self. is red(y): # y is black; will apply Case 1 or 2 

66 x — self. get red child(y) 

67 if x is not None: # Case 1: y is black and has red child x; do "transfer" 
68 old_color = self. is red(z) 

69 middle — self. restructure(x) 

70 self. set color(middle, old. color) # middle gets old color of z 
71 self. set black(self.left(middle)) # children become black 

72 self. set black(self.right(middle)) 

73 else: # Case 2: y is black, but no red children; recolor as "fusion" 

74 self. set red(y) 

75 if self. is red(z): 

76 self. set black(z) # this resolves the problem 


72 elif not self.is root(z): 


# od Mo 0343 








78 self. fix deficit(self.parent(z), self.sibling(z)) # recur upward 
79 else: # Case 3: y is red; rotate misaligned 3-node and repeat 

80 self. rotate(y) 

81 self. set black(y) 

82 self. set red(z) 

83 if z == self.right(y): 

84 self. fix deficit(z, self.left(z)) 

85 else: 

86 self. fix deficit(z, self.right(z)) 


从 代码 段 11-15 JF 46, iat aE Node 类 的 定义 引入 一 个 附加 的 布尔 值 来 表示 
节点 的 当前 颜色 。 我 们 的 构造 函数 有 意 将 新 节点 的 颜色 设置 为 红色 ， 以 符合 插入 节点 的 
方法 。 在 代码 段 11-16 的 开头 定义 几 个 附加 的 实用 功能 ， 帮 助 设置 节点 的 颜色 和 查询 各 种 
条 件 。 

一 个 元 素 已 作为 一 个 叶子 节点 被 插入 树 中 ，_rebalance_ insert 的 钩子 将 被 调用 ， 使 我 
们 有 机 会 修改 树 的 结构 。 新 节点 默认 情况 下 是 红色 的 ， 所 以 我 们 只 需要 寻找 新 节点 的 特殊 情 
况 ， 新 节点 是 根 (在 这 种 情况 下 ， 它 应 该 是 黑色 的 )， 或 者 有 一 个 双重 红色 问题 ， 因 为 新 节 
点 的 父 节点 可 能 是 红色 的 。 为 了 弥补 这 种 违规 行为 ,我们 严格 遵循 11.6.1 节 所 描述 的 情况 
分 析 。 

删除 后 的 再 平衡 也 遵循 11.6.1 节 描 述 的 情况 分 析 。 一 个 额外 的 挑战 是 ， 在 _rebalance_ 
delete 被 调用 的 同时 ， 旧 节点 已 经 从 树 中 移 除 。 在 移 除 节点 的 父 节点 上 调用 钩子 。 某 些 情况 
下 分 析 取 决 于 知道 关于 被 去 除 的 节点 的 属性 。 幸 运 的 是 ,我们 可 以 根据 红 黑 树 的 信息 进行 逆 
向 处 理 。 特 别 是 ， 如 果 p 表示 移 除 节点 的 父 节点 ， 它 必须 是 : 

e 如 果 p RATTA, 移 除 的 节点 是 红叶 (练习 R-11.26 )。 

e 如 果 己 有 一 个 子 节点 ， 已 删除 节点 是 一 个 黑 叶 ， 造 成 空缺 ， 除 非 剩 下 的 一 个 子 节点 

是 一 个 红色 的 叶子 (练习 R-11.27 ) 。 
e 如 果 p 有 两 个 子 节 点 ， 则 移 除 的 是 一 个 被 升级 并 且 有 红色 子 节 点 的 黑色 节点 (练习 
R-11.28). 


11.7 练习 


请 访问 www.wiley.com/college/goodrich 以 获得 练习 帮助 。 

巩固 

R-11.1 如 果 插入 项 (1, 4), (2, B)、(3，C)、(4, D), C5, E) (按照 这 个 顺序 ) 到 初始 为 空 的 二 叉 
搜索 树 ， 它 会 是 什么 样子 ? 

R-11.2 EH 30, 40, 24, 58, 48, 26, 11, 13 ( 按 顺 序 ) 的 项 插 和 人 一 棵 空 的 二 又 搜索 树 。 每 次 揪 
人 后 绘制 树 。 

R-11.3 有 多 少 种 可 以 存储 键 值 {1, 2, 3) 的 不 同 的 二 又 搜 索 树 ? 

R-11.4 Amongus 博士 声称 ， 一 个 固定 集合 的 条 目 被 插入 到 二 叉 搜索 树 中 的 顺序 是 不 重要 的 一 一 每 次 
都 会 产生 相同 的 树 的 结果 。 请 给 出 一 个 小 例子 ,证 明 他 的 观点 是 错 的 。 

R-11.5 Amongus 博士 声称 ， 一 个 固定 集合 的 条 目 被 插入 到 AVL 树 的 顺序 是 不 重要 的 一 一 每 次 都 会 
生 相同 的 树 的 结果 。 请 给 出 一 个 小 例子 ,证 明 他 的 观点 是 错 的 。 

R-11.6 从 代码 段 11-4 中 发 现 ，TreeMap. subtree search 实用 程序 的 实现 依赖 于 递归 。 对 于 一 棵 大 
的 不 平衡 树 ，Python 对 于 递归 深度 的 默认 限制 可 能 是 禁止 递归 的 。 给 出 一 种 非 递归 的 实现 
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方法 。 

R-11.7 图 11-12 和 图 11-14 中 的 trinode 重组 是 不 是 会 导致 单 旋转 或 双 旋转 ? 

R-11.8 根据 图 11-14b 绘制 插入 键 为 52 的 条 目 后 的 AVL 树 。 

R-11.9 根据 图 11-14b 绘制 移 除 键 为 62 的 条 目 后 的 AVL 树 。 

R-11.10 解释 为 什么 使 用 8.3.2 节 的 基于 数组 的 表示 对 一 个 n-node 二 又 树 执行 一 个 旋转 需要 O (n) 的 时 间 。 

R-11.11 按照 图 11-13 的 风格 给 出 原理 图 ， 展 示 对 AVL 树 进行 删除 操作 过 程 中 子 树 的 高 度 变 化 ，y 节 
点 的 两 个 子 节点 以 相同 高 度 开始 的 情况 下 引发 了 trinode 重组 。 执 行 删除 操作 后 重新 平衡 子 
树 的 结果 是 什么 ? 

R-11.12 重复 前 面 的 问题 ， 考 虑 其 中 y 的 子 节点 从 不 同 的 深度 开始 。 

R-11:13 AVL 树 的 删除 规则 中 特别 要 求 当 表示 为 y 的 节点 的 两 个 子 树 具有 相同 深度 时 ,x 子 节点 
应 该 和 y“ 对 齐 ”( 所 以 x 和 yy 均 为 左 子 节点 或 右 子 节点 )。 为 了 更 好 地 理解 这 一 要 求 ， 假 
设 选择 了 错误 的 x， 重 复 练习 R11l.11。 说 明 为 什么 用 那 种 选择 恢复 AVL 性 能 可 能 会 有 
问题 ? 

R-11.14 在 最 初 为 空 的 顺序 伸展 树 中 执行 以 下 操作 后 绘制 树 。 
a) 插入 键 0、2、4、6、8、10、12、14、16、18 (按照 这 个 顺序 )。 
b) 查找 键 1、3、5、7、9、11、13、15、17、19 (按照 这 个 顺序 )。 
c) 删除 键 0、2、4、6、8、10、12、14、16、18 ( 按 此 顺序 )。 

R-11.15 如 果 按 照 键 的 增加 来 访问 ， 伸 展 树 会 是 什么 样子 ? 

R-11.16 图 11-23a 所 示 的 搜索 树 是 不 是 一 棵 (2，4 ) 树 ? 回答 后 请 给 出 相应 的 原因 。 

R-11.17. 对 (2,4) 树 的 节点 w 的 男 一 种 分 裂 是 把 w 分 成 w' Al w”, w IX f 2-node iil w” Ji, f. 3-node. 
RZ Ki. ka, ka, ka 中 的 哪 一 个 存储 在 w 的 父 节 点 中 ? 为什么? 

R-11.18 Amongus 博士 声称 ， 存 储 一 组 条 目的 (2,4 ) 树 总 是 具有 相同 的 结构 ， 不 管 在 其 中 插入 的 条 
目的 顺序 如 何 。 请 证 明 他 的 观点 是 错 的 。 

R-11.19 绘制 4 种 不 同 的 对 应 于 相同 C2, 4) 树 的 红 黑 树 。 

R-11.20 假设 有 一 组 键 K= (1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15}s 
1) 用 最 少 的 节点 绘制 (2，4 ) 树 ， 将 玉 中 的 键 作 为 (2，4 ) 树 的 键 。 
2) 用 最 多 的 节点 绘制 (2，4 ) 树 ， 将 天 中 的 键 作 为 (2，4 ) 树 的 键 。 

R-11.21 假设 有 一 组 键 (5，16，22，45，2，10，18，30，50，12，1 )， 绘 制 插入 这 些 键 的 项 ( 按 给 
定 顺 序 ) 的 结果 。 
1) 最 初 为 空 的 (2，4 ) B. 
2) 最 初 为 空 的 红 黑 树 。 

R-11.22 根据 下 面 有 关 红 黑 树 陈 述 ， 证 明 每 一 个 为 真 的 语句 。 对 于 为 假 的 语句 ， 请 举 出 反例 。 
a) 红 黑 树 的 子 树 就 是 一 棵 红 黑 树 。 
b) 没有 兄弟 节点 的 节点 是 红色 的 。 
c) 与 给 定 红 黑 树 相 关联 的 (2，4 ) 树 是 唯一 的 。 
d) 与 给 定 (2, 4) 树 相关 联 的 红 黑 树 是 唯一 的 。 

R-11.23 在 一 棵 二 又 搜索 树 了 中, 无论 7 是 AVL 树 、 伸 展 树 还 是 红 黑 树 ， 中 序 遍 历 得 到 的 条 目 都 是 
相同 的 输出 结果 。 

R-11.24 考虑 一 棵 存储 100 000 个 条 目的 树 7T， 下 面 列举 的 选项 哪个 有 最 坏 情 况 的 高 度 ? 
1) 了 是 二 又 搜索 树 。 


R-11.25 
R-11.26 


R-11.27 


R-11.28 


创新 
C-11.29 


C-11.30 
C-11.31 
C-11.32 


C-11.33 


C-11.34 


C-11.35 


C-11.36 


C-11.37 


C-11.38 


C-11.39 


C-11.40 
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2) TĒ AVL 树 。 

3) 7 是 伸展 树 。 

4) TÆ (2, 4) Bf, 

5) 了 是 红 黑 树 。 

画 一 棵 是 红 黑 树 但 不 是 AVL 树 的 例子 。 

假设 7 是 一 棵 红 黑 树 ， 设 p 为 该 树 经 过 标准 搜索 树 删除 算法 被 删除 节点 的 父 节 点 。 试 证 明 : 
WR p 没有 子 节点 ， 则 删除 的 节点 为 红色 叶子 。 

假设 7 是 一 棵 红 黑 树 ， 设 p 为 该 树 经 过 标准 搜索 树 删除 算法 被 删除 节点 的 父 节 点 。 试 证 明 : 
如 果 p 只 有 一 个 孩子 ， 除 了 一 个 保留 的 子 结 点 是 红色 叶子 的 情况 ， 该 删除 将 会 在 p 的 位 置 导 
致 黑色 不 足 。 

假设 T 是 一 棵 红 黑 树 ， 设 pp 为 该 树 经 过 标准 搜索 树 删除 算法 被 删除 节点 的 父 节点 。 试 证 明 : 
如 果 p 有 两 个 子 节点 ， 则 删除 的 节点 是 黑色 并 且 有 一 个 红色 子 节点 。 


说 明 如 何 用 AVL 树 或 者 红 黑 树 对 n 个 可 比较 的 元 素 进 行 排 序 ， 并 且 在 最 坏 情况 下 的 时 间 复 
杂 度 为 O(n log n). 

能 用 伸展 树 对 个 可 比较 的 元 素 进 行 排序 ， 并且 在 最 坏 情况 下 的 时 间 复 杂 度 达到 O(n log n) 
吗 ? 为 什么 ? 

对 TreeMap 类 重复 练习 C-10.28。 

说 明 任何 n-node 的 二 叉 树 都 可 以 经 过 O(n) 次 旋转 被 转换 成 其 他 n-node 的 二 又 树 。 

对 于 一 个 在 二 又 搜 索 树 7 中 没有 搜索 到 的 键 x， 证明 小 于 的 最 大 键 和 大 于 上 的 最 小 键 都 位 
于 上 的 搜索 路 径 上 。 

在 11.1.2 节 中 ， 我 们 声明 了 一 个 二 又 搜索 树 的 find range 方法 执行 的 时 间 复 杂 度 为 Ols +h), 
其 中 ;为 搜索 范围 内 的 元 素 个 数 ，h 为 树 的 高 度 。 实 现在 代码 段 11-6 开始 对 开始 节点 搜索 ， 
并 且 重 复 调用 after 方法， 直到 搜索 完整 个 范围 。 每 次 调用 after 方法 都 保证 运行 时 间 在 OCh) 
以 内 。 这 表明 了 find range 方法 的 一 个 更 小 的 O(sh) 界限 ， 因 为 它 包 括 了 O(s) 的 after 调用 。 
证 明 该 实验 实现 了 更 大 的 时 间 界 限 O(s + 门 。 

描述 如 何 进 行 remove range(start, stop) 操作 ， 删 除 所 有 以 二 叉 搜索 树 实现 的 有 序 映射 中 落 在 
范围 (start, stop) 之 间 的 键 ， 并 表明 该 方法 运行 的 时 间 复 杂 度 为 O(s + h)， 其 中 s 为 删除 的 元 
素 个 数 ，h 为 了 的 高 度 。 

用 AVL 树 重新 解决 上 述 问题 ， 实 现 运行 时 间 复 杂 度 为 O(s log n)。 为 什么 原来 问题 的 解决 方 
法 对 AVL 树 不 会 直接 产生 一 个 O(s + log n) 的 算法 。 

假设 希望 支持 一 个 新 的 能 确定 有 和 多少 有 序 映射 的 键 落 在 一 个 特定 的 范围 内 的 计数 范围 方 
法 count_range(start, stop)。 我 们 很 明确 地 采用 我 们 的 find range 方法 实现 该 操作 ， 其 耗 时 
O(s * 有。 描述 如 何 修改 该 搜索 树 结 构 使 得 其 用 count range 方法 搜索 时 ， 最 坏 情况 下 时 间 复 
杂 度 为 O( 有 )。 

如 果 在 前 面 的 问题 中 描述 的 方法 前 作为 TreeMap 类 实现 的 一 部 分 ， 那 么 为 了 支持 新 方法 ， 必 
须 附 加 哪些 修改 (有 可 能 的 话 ) 作为 一 个 子 类 (比如 AVLTreeMap) ? 

为 了 恢复 高 度 平衡 属性 ， 绘 制 AVL 树 的 原理 图 ， 说明 一 个 单独 的 移 除 操作 需要 Q (log n) 的 
从 叶子 节点 到 根 的 trinode 重组 (或 旋转 )。 

在 我 们 的 AVL 实现 中 ， 每 个 节点 存储 其 子 树 的 高 度 ， 它 是 一 个 任意 的 大 整数 。 通 过 存储 一 
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个 节点 的 平衡 因子 来 减少 一 个 AVL 树 的 存储 空间 ， 其 中 平衡 因子 被 定义 为 该 节点 左 子 树 
的 高 度 减 去 右 子 树 的 高 度 。 因 此 ， 一 个 节点 的 平衡 因子 总 是 取 - 1，0 或 者 1。 除 了 在 插 人 
或 者 删除 阶段 它 临 时 等 于 -2 或 者 + 2 的 情况 。 重 新 实现 存储 平衡 因子 而 不 是 子 树 高 度 的 
AVLTreeMap 类 。 

如 果 保 留 一 个 二 叉 搜 索 树 最 左边 节点 的 引用 ， 那 么 find. min 操作 执行 时 间 会 是 0(1)。 描 述 
如 何 修改 其 他 映射 方法 从 而 保留 最 左边 位 置 的 指针 。 

如 果 描 述 前 面 问题 的 方法 作为 TreeMap 类 实现 的 一 部 分 ， 那 么 必须 附加 哪些 修改 (如 果 可 以 
的 话 ) 给 一 个 如 AVLTreeMap 的 子 类 ， 以 精确 地 保留 最 左边 位 置 的 引用 ? 

描述 一 个 对 二 又 搜索 树 的 修改 ， 没 有 其 他 方法 渐 近 的 不 利 影 响 的 情况 下 ， 通 过 after(p) 和 
before(p) 两 个 方法 实现 了 最 坏 时 间 复 杂 度 0(1)。 

如 果 前 面 问题 描述 的 方法 作为 TreeMap 类 实现 的 一 部 分 ， 为 了 保持 效率 ， 对 子 类 (例如 
AVLTreeMap) 来 说 什么 样 的 额外 修改 (如 果 有 的 话 ) 是 必要 的 ? 

对 于 一 个 标准 二 又 搜索 树 ， 表 11-1 表明 了 delete(p) 方法 需要 用 Olh) 的 时 间 复 杂 度 。 证 明 如 
果 对 练习 C-11.43 给 出 一 个 解决 方案 ， 为 什么 delete(p) 方法 运行 时 间 将 会 是 O(1) ? 

描述 一 个 对 二 又 搜索 树 数据 结构 进行 的 修改 ， 使 其 对 一 个 有 序 映射 支持 以 下 两 个 基于 索引 的 
操作 ， 所 用 时 间 复 杂 度 为 Oh), HP h 是 树 的 高 度 。 

e at index(i): 返回 有 序 映射 中 索引 为 i 的 项 的 位 置 p。 

© index of(p): 返回 有 序 映 射 中 位 置 为 p 的 项 的 索引 io 

绘制 一 棵 伸展 树 Ty 以 及 产生 它 的 更 新 的 序列 ， 同 时 绘制 一 棵 红 黑 树 7;， 在 同一 组 设置 10 个 
条 目 ， 使 得 T 的 先 序 遍历 将 和 T; 的 先 序 遍历 相同 。 

请 展示 ,在 AVL 树 中 ， 在 插入 操作 期 间 暂 时 成 为 不 平衡 的 节点 可 能 在 从 新 插入 节点 到 根 节 
点 这 条 路 径 上 不 连续 。 

请 展示 , 在 AVL 树 中 ， 经 过 标准 delitem ”map 操作 删除 一 个 节点 后 至 多 一 个 节点 暂时 失 
去 平衡 。 

记 T 和 U 为 (2, 4) 树 , 分 别 存 储 n 和 wm 个 条 目 , 使 得 所 有 了 中 的 条 目 拥有 的 键 少 于 U 中 
所 有 条 目 拥有 的 键 。 描 述 将 T 和 UU 合并 成 单一 的 树 来 存储 T 和 U 的 所 有 元 素 的 方法 ,使 得 
该 方法 的 时 间 复 杂 度 为 O(log n + log m)。 

用 红 黑 树 TAU 重复 上 述 的 问题 。 

证 明 命题 11-7。 

当 有 不 同 的 键 时 ， 在 红 - 黑 树 中 使 用 布尔 指示 器 标记 节点 是 “ 红 ” 还 是 “ 黑 ” 并 不 是 很 
严格 。 描 述 一 棵 现实 方案 ， 使 得 无 须 添加 任何 额外 的 空间 就 能 将 一 棵 准 二 又 搜索 树 变 成 红 
黑 树 。 

记 了 是 一 个 有 7 个 条 目的 红 黑 树 , 大 为 了 中 一 个 条 目的 键 。 展 示 如 何 根据 了 在 O(log n) 的 时 
间 里 构建 两 个 红 黑 树 7" 和 7”", 使 得 7 包含 7 中 的 所 有 小 于 的 ，7" 包含 7 中 所 有 大 于 上 的 
键 。 这 个 操作 会 破坏 To 

展示 任何 一 个 AVL 树 了 的 节点 通过 标记 成 红 和 黑 都 能 成 为 一 个 红 黑 树 。 

标准 伸展 步骤 需要 两 步 : 首先 向 下 延伸 找到 待 扩展 节点 x。 然 后 向 上 延伸 扩展 x。 描 述 一 
个 在 向 下 的 延伸 中 伸展 并 搜索 x 的 方法 。 每 个 子 步 又 都 需要 你 考虑 接 在 下 降 到 x 的 路 径 中 
接 下 来 的 两 个 节点 ， 并 且 可 能 在 最 后 使 用 zig 子 步骤 。 描 述 如 何 进 行 zig-zig, zig-zag 和 zig 
步骤 。 
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考虑 一 个 伸展 树 的 变形 ， 叫 作 半 伸展 树 。 只 要 到 达 伸 展 树 4/2 的 深度 ， 将 停止 伸展 深度 为 a 
的 节点 。 对 半 伸 展 树 进行 推销 分 析 。 

试 述 n-node 伸展 树 的 一 系列 的 访问 ， 其 中 为 奇数 。 这 将 导致 了 由 一 个 单 链 节 点 组 成 ， 
使 得 到 了 的 路 径 中 节点 交替 出 现在 左 子 节点 和 右 子 节点 之 间 。 

作为 一 个 位 置 结构 ，TreeMap 的 实现 有 一 点 正 症 。 例 如 一 个 与 位 置 忆 关联 的 键 - 值 对 (k, v), 
只 要 其 条 目 保存 在 映射 中 ， 就 应 该 保留 其 有 效 性 。 特 别 是 ， 该 位 置 不 能 受到 在 集合 中 调用 插 
入 或 者 删除 其 他 项 的 影响 。 但 是 我 们 的 算法 在 删除 一 个 二 又 搜索 树 时 不 能 提供 这 样 一 个 保 
证 。 因 为 所 定 的 规则 是 在 删除 一 个 有 两 个 子 节 点 的 键 时 用 其 前 面 的 键 代 替 它 。 给 出 一 系列 明 
确 的 Python 命令 ， 演 示 这 样 的 瑕 症 。 

如 何 改变 TreeMap 从 而 避免 上 述 问 题 中 提 到 的 缺点 ? 


使 用 各 种 不 同 序列 的 操作 研究 比较 AVL 树 、 伸 展 树 和 红 黑 树 的 实现 速度 。 
重复 上 述 练习 3， 包括 跳跃 表 ( 见 练习 P-10.53 ) 的 实现 。 
使 用 一 棵 (2, 4) BE CUL 10.1.1 节 ) 实现 ADT 映射 。 
重复 上 述 练习 ， 用 到 有 序 ADT 映射 的 所 有 方法 ( 见 10.3 节 )。 
重复 练习 P-11.63 提供 二 叉 搜索 树 ( 11.1.1 节 ) 的 位 置 支持 ， 用 到 first()、last()、before(p)、 
after(p) 和 find position(kb) 方法 。 理 论 上 每 个 条 目 都 有 不 同 的 位 置 ， 即 使 许多 条 目 可 能 存储 
在 一 棵 树 的 同一 个 节点 上 。 
编写 一 个 Python 类 ， 能 将 要 给 红 黑 树 转 换 成 相应 的 (2,，4) 树 ， 同 时 也 能 将 一 个 (2，4 ) 
树 转换 成 其 对 应 的 红 黑 树 。 
在 10.5.3 节 描 述 多 集合 和 多 重 映射 时 ， 我 们 描述 了 一 个 一 般 的 方法 来 改变 传统 的 映射 ， 即 
通过 在 二 级 容器 中 存储 所 有 的 副本 。 给 出 一 个 可 选择 的 使 用 二 又 搜索 树 的 多 重 映射 的 实施 方 
案 ， 使 得 映射 中 每 个 条 目 存 储 在 树 的 不 同 节点 中 。 由 于 存 有 副本 ， 因 此 重新 定义 搜索 树 的 属 
性 ， 使 得 位 置 p 的 左 子 树 所 有 条 目的 键 小 于 等 于 k， 位 置 p 的 右 子 树 的 所 有 条 目的 键 大 于 等 
Fko 使 用 在 代码 段 10-17 中 给 出 的 公共 接口 。 
像 练 习 C-11.56 描述 的 一 样 使 用 从 上 到 下 扩展 的 方法 实现 伸展 树 。 在 本 章节 进行 广泛 的 实验 
人 研究， 比较 该 方法 与 标准 自 底 向 上 伸展 的 性 能 差别 。 
可 合并 堆 ADT 是 优先 队列 ADT 的 一 个 扩展 ,包括 的 操作 有 add(k, v)、min()、remove_min() 
和 merge(h) 。merge(h) 操作 是 对 一 个 可 合并 堆 集合 中 当前 元 素 进行 的 ， 将 所 有 条 目 合并 到 
该 元 素 直到 h 为 空 。 描 述 一 个 可 合并 堆 ADT 的 具体 实现 ,该 ADT 的 所 有 操作 时 间 复 杂 度 都 
在 O(log n) 以 内 实现 ，n 表示 合并 操作 生成 的 堆 的 大 小 。 
编写 执行 一 个 简单 的 n 体 模拟 ， 称 为 程序 “ 跳 妖 精灵 。” 这 个 模拟 包含 了 nn 个 精灵 ， 编 号 从 
1 到 n。 它 为 每 个 精灵 i 保留 了 一 个 黄金 价 g;， 开 始 每 个 精灵 价值 一 百 万 ， 即 对 于 i= 1, 2, …， 
n, gi= 1000 000。 另 外 ， 该 模拟 器 为 每 个 精灵 i 在 水 平方 向 上 保留 一 个 空间 ， 代 表 了 一 个 双 
精度 浮 点 型 数 x;。 模 拟 器 的 每 次 迭代 都 使 精灵 有 序 。 在 每 次 迭代 过 程 中 产生 一 个 精灵 并 日 通 
过 以 下 公式 为 i 计算 一 个 水 平 的 空间 : 

x, =x, +rg, 
r 为 -1 到 1 之 间 的 随机 浮 点 数 。 然 后 精灵 i 获取 离 它 最 近 精 灵 的 一 半 黄 金 ， 并 且 加 到 自己 的 
黄金 价值 g; 中 。 请 编写 一 个 程序 ， 通 过 给 出 精灵 个 数 n 来 实现 这 一 系列 的 精灵 。 你 必须 使 用 
一 个 本 章 中 的 有 序 映 射 数据 结构 来 维持 水 平 位 置 的 集合 。 
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扩展 阅读 

本 章 中 讨论 的 许多 数据 结构 在 Knuth 的 Sorting and Searching?! 书 中 广泛 涉及 ， 并 且 被 Mehlhorn 
在 文献 [76] 中 用 到 。AVL 树 是 由 Adel’son-Vel’skii 和 Landis?! F 1962 年 发 明 的 平衡 搜索 树 。 二 又 搜 
索 树 、AVL 树 和 哈 希 都 在 Knuth 的 Sorting and Searching 59 书 中 有 讲述 。 二 又 搜索 树 的 平均 高 度 分 析 
来 自 Aho、Hopcroft 和 Ullman!, LI 及 Cormen, Leiserson, Rives fil Stein 的 书 P, Gonnet andaeza- 
Yates 的 手稿 保留 了 许多 映射 实现 的 理论 和 实验 的 比较 .Aho Hopcroft 和 Ullman® 讨论 了 (2,3) 树 ， 
这 种 树 类 似 (2, 4) 树 。 红 黑 树 是 由 Bayer"? 定义 的 。Guibas 和 Sedgewick"? 的 论文 展示 了 红 黑 树 的 
各 种 有 趣 属 性 。 有 兴趣 想 了 解 更 多 有 关 不 同 平衡 树 数据 结构 的 读者 ， 可 以 阅读 Mehihorn"9 和 Tarjan*?! 
的 书 ， 本 章 参 见 Mehlhorn 和 Tsakalidis"?., Knuth! 是 优秀 的 附加 读物 ， 包 含 了 早期 平衡 树 的 研究 方 
法 。 伸 展 树 是 由 Sleator 和 Tarjan” (也 可 参见 文献 [95 ] ) 发 明 的 。 


| 第 12 章 


Data Structures and Algorithms in Python 


排序 与 选择 





12.1 为 什么 要 学 习 排 序 算法 


本 章 的 重点 是 针对 对 象 集 进行 排序 的 算法 。 我 们 要 对 一 个 集合 的 元 素 进行 重新 排列 ， 以 
使 它们 按照 从 小 到 大 的 顺序 进行 排列 (或 以 此 顺序 生成 一 个 新 的 副本 )。 我 们 假设 存在 一 个 
这 样 的 一 致 次 序 ， 就 如 同 我 们 在 学 习 优先 级 队列 时 所 做 的 (参见 9.4 节 )。 在 Python 中 ， 对 
象 的 自然 顺序 一 般 使 用 < 操作 符 定义 ， 该 运算 符 具 有 以 下 性 质 : 

e 非 自 反 性 : k £k 

e 可 传递 性 : Æ ki <k H. k< k, Wil] ky < ks; 

可 传递 性 是 很 重要 的 。 它 使 我 们 在 不 花费 时 间 执 行 比较 的 情况 下 ， 能 够 直接 推断 出 某 些 
比较 的 结果 ， 从 而 得 到 一 个 更 高 效 的 算法 。 

排序 是 已 被 很 多 学 者 充分 研究 过 的 有 关 计 算 的 最 重要 的 问题 之 一 。 数 据 集合 通常 按照 排 
好 序 的 顺序 存储 以 便 进行 高 效 搜索 ， 举 个 例子 ， 在 已 有 序 的 数据 集合 上 可 以 使 用 二 分 查找 算 
法 (参见 4.1.3 节 ) 来 检索 。 许 多 解决 不 同 问题 的 高 级 算法 都 依赖 于 排序 。 

Python 对 数据 排序 提供 了 内 置 支持 ， 其 中 包括 重新 对 列表 内 容 进 行 排序 的 list 类 的 sort 
方法 ， 还 有 以 排 好 的 顺序 生成 一 个 包含 任意 元 素 集合 的 内 置 的 sorted 函数 。 这 些 内 置 函 数 使 
用 了 一 些 高 级 算法 (其 中 的 一 些 我 们 将 在 本 章 描述 )， 并 且 是 高 度 优 化 的 。 由 于 很 少 有 需要 
从 头 开始 实现 排序 的 特殊 情况 出 现 ， 因 此 编程 人 员 往 往 会 调用 内 置 排序 函数 。 

这 就 表示 ， 对 排序 算法 有 深刻 的 理解 是 十 分 重要 的 。 当 务 之 急 ， 在 调用 这 些 内 置 函 数 的 
时 候 ， 最 好 弄 清楚 预期 的 效率 是 多 少 以 及 它 是 如 何 依赖 于 元 素 的 初始 顺序 或 者 排序 对 象 的 类 
型 的 。 一 般 而 言 ， 这 些 引 领 排序 算法 发 展 进步 的 思想 和 方法 使 得 计算 机 应 用 其 他 领域 的 算法 
也 得 到 了 发 展 。 

我 们 在 本 书 中 已 经 介绍 了 一 些 排序 算法 : 

e 插入 排序 (参见 5.5.2 节 、7.5 节 和 9.4.1 节 ) 

e 选择 排序 (参见 9.4.1 节 ) 

e HIGHER (参见 练习 C-7.38 ) 

e 堆 排 序 (参见 9.4.2 15) 

在 本 章 中 ,我 们 展示 了 四 种 其 他 的 排序 算法 : 归并 排序 、 快 速 排序 、 桶 排序 和 基数 排 
序 ， 之 后 我 们 将 在 12.5 节 中 讨论 这 些 排序 算法 的 优 缺 点 。 


12.2 ”归并 排序 
12.2.1 分 治 法 


我 们 在 本 章 中 先 描述 前 两 个 算法 一 一 归并 排序 和 快速 排序 ， 它 们 在 分 治 法 的 算法 设计 
模式 当中 使 用 了 递归 的 方法 。 我 们 已 经 知道 ， 递归 可 以 十 分 简练 地 描述 一 个 算法 (参见 第 4 
章 )。 分 治 法 设计 模式 包含 以 下 三 个 步骤 : 
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1) 分 解 : ni A RT] UI NT f «E P PEL (比如 一 个 或 者 两 个 元 素 )， 我 们 就 通过 使 
用 直截了当 的 方法 来 解决 这 些 问 题 并 返回 所 获得 的 答案 。 和 否则 ， 我 们 把 输入 值 分 解 为 两 个 或 
A EB S RE, 

2) 解决 子 问题 : 递归 地 解决 这 些 与 子 集 相 关 的 子 问题 。 

3 ) 合并 : 整理 这 些 子 问题 的 解 ， 然 后 把 它们 合并 成 一 个 整体 用 以 解决 最 开始 的 问题 。 

使 用 分 治 法 进行 排序 

我 们 首先 在 一 个 很 高 的 层次 上 描述 归并 算法 ， 而 不 是 去 关注 数据 是 基于 数组 (Python) 
的 表 还 是 链表 ， 之 后 ， 我 们 将 给 出 对 于 每 一 种 数据 的 具体 实现 。 我 们 使 用 分 治 法 的 三 个 步骤 
来 对 一 个 有 个 元 素 的 序列 8 进行 排序 ， 归 并 排序 的 过 程 如 下 : 

1) 分 解 : 若 8 只 有 0 个 或 1 个 元 素 ， 直 接 返 回 8; 此 时 它 已 经 完成 排序 了 。 和 否则 GS 
有 至 少 2 70K), MS 中 移 除 所 有 的 元 素 ， 然 后 将 它们 放 在 Si. S2 两 个 序列 中 ， 每 一 个 序 
列 包 含 S 中 一 半 的 元 素 。 这 就 是 说 ，8 包含 5 前 一 半 的 元 素 ，5, 包含 5 后 一 半 的 元 素 。 

2) 解决 子 问题 : 递归 地 对 S, I S, 进行 排序 。 

3) 合并 : 把 这 些 分 别 在 S, 和 Sy 中 排 好 序 的 元 素 拿 出 并 按照 顺序 合并 到 S 序列 中 。 

关于 分 解 的 步 又， 我 们 用 Lzj 符号 来 表示 取 x 的 底 (floor)， 即 有 最 大 的 整数 大 使 得 
k < xo KV, 我们 用 [x | 表示 取 x 的 顶 (ceiling)， 即 有 最 小 的 整数 m 使 得 x < m. 

可 以 用 一 个 二 叉 树 了 来 形象 化 一 个 归并 排序 算法 的 执行 过 程 ， 称 这 个 二 叉 树 为 归并 排序 
树 。7 的 每 一 个 节点 表示 归并 排序 算法 的 一 个 递归 调用 (或 引用 )。 我 们 将 了 中 的 每 个 节点 
v， 通 过 调用 和 序列 8 关联 起 来 。 节 点 v 的 子 节点 通过 递归 调用 相关 联 ， 该 递归 调用 可 以 处 理 
S 的 子 序列 % 和 8。 了 7 的 外 部 节点 是 与 8 中 的 单个 元 素 相 关联 的 ， 与 无 递归 调用 的 算法 实例 
一 致 。 

图 12-1 通过 展示 对 归并 排序 树 每 个 节点 处 理 得 到 的 输入 输出 序列 ， 总 结 了 归并 排序 算 
法 的 执行 过 程 。 归 并 排序 树 的 逐步 演变 在 图 12-2 一 图 12-4 中 展示 。 





图 12-1 8 元素 序列 的 归并 排序 算法 执行 过 程 的 归并 排序 树 了: a) 对 了 的 每 个 节点 处 理 得 到 的 输入 序 
列 ; b) 了 的 每 个 节点 生成 的 输出 序列 


归并 排序 树 算 法 的 可 视 化 ， 可 以 帮助 我 们 分 析 归 并 排序 算法 的 运行 时 间 。 特 别 地 ， 由 于 
输入 序列 的 大 小 大 约 是 归并 排序 中 每 个 递归 调用 的 一 半 ， 因 此 归并 排序 树 的 高 度 大 约 是 log n 
(如 果 log 的 底 被 省 略 ， 则 以 2 为 底 )。 

命题 12-1: 在 大 小 为 n 的 序列 上 执行 归并 算法 ,与 其 相关 联 的 归并 排序 树 的 高 度 为 


[logn], 
我 们 把 命题 12-1 的 证 明 留 作 一 个 简单 的 练习 R-12.1。 我 们 将 使 用 这 一 命题 来 分 析 归 并 
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排序 算法 的 运行 时 间 。 





T pen mnc 
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图 12-2 ”一 个 可 视 化 的 归并 排序 执行 过 程 。 树 的 每 一 个 节点 表示 一 个 归并 排序 的 递归 调用 。 虚 线 所 画 
的 节点 表示 该 节点 的 调用 仍 未 形成 。 粗 线 所 画 的 节点 表示 当前 调用 的 节点 。 用 细 线 画 出 的 空 
节点 表示 该 节点 已 经 完成 调用 。 剩 下 的 节点 ( 细 线 所 画 的 但 是 非 空 的 ) 表示 该 调用 正在 等 待 
子 节点 调用 的 返回 值 (下 接 图 12-3 ) 


合 已 经 给 出 的 关于 归并 排序 的 概述 ， 以 及 其 工作 方式 的 说 明 ， 让 我 们 更 详细 地 思考 分 
治 法 中 的 每 一 个 步骤 。 把 一 个 长 度 为 n 的 序列 在 其 位 置 为 [ 2 ] 的 元 素 处 进行 分 解 ， 然 后 可 
以 通过 把 较 小 的 序列 作为 参数 开始 递归 调用 。 比 较 复杂 dU saat pile plegii 
并 成 一 个 单独 的 序列 。 因 此 ， 在 我 们 进行 关于 归并 排序 的 分 析 之 前 ， 需 要 知道 更 多 有 关 它 
如 何 完成 的 内 容 。 


12.2.2 基于 数组 的 归并 排序 的 实现 


我 们 以 一 个 被 表示 为 Python 列表 (基于 数组 ) 的 序列 开始 。merge 函数 ( 见 代 码 段 12-1) 
负责 将 之 前 提 到 的 两 个 已 排序 的 序列 S, SS 合并 ， 并 将 输出 复制 到 序列 S 中 的 子 任务 。 我 
们 在 每 次 进入 while 循环 时 复制 一 个 元 素 ， 有 条 件 地 决定 下 一 个 元 素 将 会 取 自 8 或 8 中 的 
哪 一 个 。 分 治 法 的 归并 排序 算法 已 经 给 出 ， 参 见 代码 段 12-2。 
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图 12-4 可 视 化 的 归并 排序 执行 过 程 (上 接 图 12-3 )。 许 多 在 图 m 和 ma 之 间 的 调用 被 省 略 了 。 在 步骤 
p 中 ,请 注意 这 两 个 部 分 的 合并 过 程 
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代码 段 12-1 Python 中 基于 数组 的 list 类 的 合并 操作 的 执行 过 程 
l def merge(S1, S2, S): 


2 '"" Merge two sorted Python lists S1 and S2 into properly sized list S.""" 
i=j=0 

4 while i + j < len(S): 

5 if j == len(S2) or (i < len(S1) and S1[i] < S2[j]): 


6 S[i+j] = S1[i] # copy ith element of S1 as next item of S 
i+=1 

8 else: 

9 S[i--j] = S2[j) # copy jth element of S2 as next item of S 

10 jt=1 


代码 段 12-2 Python 中 基于 数组 的 list 类 的 递归 归并 排序 算法 的 执行 过 程 (使 用 
了 代码 段 12-1 中 定义 的 merge HA) 


def merge. sort(S): 


| 

2 "" Sort the elements of Python list S using the merge-sort algorithm." " " 
3 n-len(S) 

4 ifn<2: 

3 return # list is already sorted 

6 # divide 

7 mid=n//2 

8 951 = S[0:mid] # copy of first half 

9 S2 = S[mid:n] # copy of second half 

10 # conquer (with recursion) 

|! merge_sort(S1) # sort copy of first half 

12 merge_sort(S2) # sort copy of second half 

13 # merge results 

i4 merge(S1, S2, S) # merge sorted halves back into S 


下 面 我 们 来 说 明 图 12-5 中 合并 过 程 的 一 个 步骤 。 在 整个 过 程 中 ,索引 i 表示 51 中 已 经 
被 复制 到 5 中 的 元 素 个 数 ， 同 时 ， 索 引 j 表示 S 中 已 经 被 复制 到 5 中 的 元 素 个 数 。 假 设 S 
和 5, 都 至 少 有 1 个 未 复制 元 素 ， 我 们 考虑 复制 两 个 元 素 中 较 小 的 那个 元 素 。 因 为 +7 个 对 
象 之 前 已 经 复制 过 了 ， 所 以 下 一 个 元 素 会 被 放置 到 Sli +s] CHM, 4i+j7 为 0， 则 下 一 元 素 
就 被 复制 到 S[0])。 如 果 我 们 达到 了 某 一 个 序列 的 最 后 ， 就 必须 从 另 一 序列 开始 复制 下 一 个 
TUR o 








图 12-5 ”两 个 已 排序 数组 的 合并 步骤 GS p] < S 中)。 我 们 展示 了 数组 在 复制 前 (a) 
与 复制 后 (b) 的 情况 


12.2.3 “归并 排序 的 运行 时 间 


我 们 来 分 析 merge 算法 的 运行 时 间 。 仿 nl 和 nn 分别 为 5, 和 5; 的 元 素数 。 很 明显 ,在 
每 个 while 循环 中 执行 的 操作 消耗 OC) 的 时 间 。 需 要 注意 的 是 ， 在 每 一 次 迭代 循环 的 过 程 





中 ， 元 素 始终 是 从 S, 或 者 Sy 复制 到 S 中 的 (并且 认为 这 个 元 素 没有 做 更 进一步 的 复制 )。 因 
此 ， 循 环 的 迭代 次 数 是 站 + 严 。 也 就 是 说 ，merge 算法 的 运行 时 间 是 O(n +m) 

分 析 了 用 于 合并 子 问题 的 merge 算法 的 运行 时 间 ， 对 于 一 个 含有 nn 个 元 素 的 输入 序列 ， 
我 们 可 以 分 析 其 整个 归并 排序 算法 的 运行 时 间 。 为 简单 起 见 ， 我 们 只 考虑 n 是 2 的 乘 方 的 情 
况 。 当 nn 不 是 2 的 乘 方 时 分 析 结 果 依 旧 成 立 ， 我 们 把 它 留 作 练习 了 -12.3。 

在 评估 归并 排序 的 递归 时 ， 我 们 依赖 于 4.2 节 中 介绍 的 分 析 技 术 。 我 们 对 每 一 次 递归 调 
用 的 时 间 消 耗 进行 计算 ,但 是 排除 等 待 成 功 的 递归 调用 终止 所 花费 的 时 间 。 至 于 merge sort 
函数 ,我 们 计算 把 一 个 序列 分 为 两 个 子 序列 ， 以 及 调用 merge 隐 数 来 合并 这 两 个 已 排序 的 序 
列 所 耗费 的 时 间 ， 但 排除 了 两 个 对 merge_sort 函数 的 递归 调用 。 

一 棵 归并 排序 树 T7， 如 同 图 12-2 一 图 12-4 所 描绘 的 ， 可 以 指引 我 们 的 分 析 。 考 虑 一 个 
已 经 关联 了 归并 排序 树 7 了 的 节点 v 的 递归 调用 。 在 节点 v 处 分 解 的 步骤 是 直截了当 的 ; 基于 
切片 的 使 用 来 创造 两 个 ist 的 二 分 副本 ， 这 一 步 运 行 的 时 间 与 v 所 在 序列 的 大 小 成 比例 。 我 
们 已 经 看 出 ,合并 步骤 在 已 合并 序列 的 大 小 中 ， 同 样 也 花费 线性 的 时 间 。 如 果 我 们 让 i 表示 
Ted v 的 深度 ， 则 在 节点 v 人 处 的 时 间 花 费 为 O(n/2)， 原因 是 关联 了 vv 的 递归 调用 所 处 理 的 序 
列 的 长 度 为 n/2'。 

更 全 局 地 看 这 棵 树 7， 如 图 12-6， 我 们 看 到 ， 基 于 “在 节点 处 的 时 间 花 费 ” 的 定义 ， 归 
并 排序 的 运行 时 间 等 于 在 树 7 的 节点 处 时 间 花 费 的 总 和 。 注 意 ,，7 在 深度 为 i 处 ,显然 有 个 
节点 。 这 一 简单 的 现象 得 出 很 重要 的 结论 ， 它 意味 着 在 树 7 的 深度 为 i 处 的 所 有 节点 的 全 部 
WEER A O(2' + n/2'), BI O(n)。 由 命题 12-1 可 知 ， 树 了 的 高 为 [logz | 。 也 就 是 说 ， 因 为 
在 树 了 的 每 个 [logn|+1 处， 时 间 花 费 均 为 O(n)， 所 以 有 如 下 结论 。 

命题 12-2 : 假设 一 个 大 小 为 n 的 序列 S， 其 两 个 元 素 可 以 在 O(1) 的 时 间 内 完成 比较 ， 
那么 归并 排序 算法 对 8 进行 排序 消耗 的 时 间 为 O(n log n). 


每 层 所 需 时 间 
O(n) 






O(log n) 


总 时 间 : O(n log n) 
图 12-6 ”归并 排序 运行 时 间 的 可 视 化 分 析 。 每 个 节点 表示 自己 递归 调用 时 所 花费 
的 时 间 ， 并 与 其 子 问题 规模 一 同 标注 


12.2.4 ”归并 排序 与 递归 方程 * 


有 男 一 种 证 明 归 并 排序 算法 运行 时 间 为 O(n log n) (由 命题 12-2 得 出 的 ) 的 方法 。 换 句 
话说 ,我 们 可 以 更 直接 地 处 理 归并 排序 算法 的 递归 性 。 在 本 节 中 ， 我们 提出 一 种 关于 归并 排 
序 运行 时 间 的 分 析 ， 介 绍 递归 方程 (也 称 为 递归 关系 ) 的 数学 概念 。 

我 们 用 函数 x(n) 来 表示 一 个 规模 为 n 的 输入 序列 的 归并 排序 在 最 坏 情 况 下 的 运行 时 间 。 
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因为 归并 排序 是 递归 的 ， 所 以 我 们 可 以 用 一 个 方程 来 描述 函数 kz) ， 在 该 方程 中 ， 函 数 n) 
可 以 根据 其 自身 递归 地 表达 。 为 了 简化 i(n) 的 描述 ,我 们 只 考虑 n 为 2 的 乘 方 的 情况 (这 个 
问题 的 渐 近 特性 在 一 般 情 况 下 依旧 成 立 ， 我 们 把 这 个 留 作 练习 )。 在 这 种 情况 下 ， 我 们 可 以 
把 i(n) 的 定义 详细 化 : 


b nxl 


i A 其 他 


一 个 如 上 所 示 的 表达 式 被 称 作 递归 方程 ， 是 因为 这 个 函数 同时 出 现 了 等 号 的 左 支 和 右 支 。 尽 
管 这 样 的 描述 是 正确 且 精 确 的 ， 然 而 我 们 希望 得 出 的 是 一 个 关于 cn) 且 不 包含 t(n) 自己 的 大 
O 类 型 的 描述 。 这 就 是 说 ， 我 们 需要 一 个 关于 (n) 的 封闭 性 描述 。 

我 们 在 假设 比较 大 的 情况 下 通过 递归 方程 的 定义 获得 了 一 个 封闭 的 解决 方案 。 例 如 在 
上 式 的 再 次 应 用 后 ， 我 们 可 以 写 出 一 个 新 的 递归 式 如 下 : 

t(n) =2(2t(n/2°)+(cn/2) - en 2 2? t(n/ 22) - 2(n/ 2) - en 2 2? t(n/ 2?) - 2en 
如 果 我 们 再 次 应 用 这 个 方程 ， 会 得 到 t(n) = 271(0/23) + 3cn。 从 这 个 角度 ,我 们 可 以 看 出 一 个 
新 模式 ， 即 在 应 用 这 个 表达 式 i 次 之 后 可 以 得 到 : 
t(n) =2't(n/2')+icn 
之 后 剩 下 的 问题 就 是 决定 何 时 终止 这 个 过 程 。 为 了 知道 何 时 停止 这 个 过 程 ， 再 次 调用 我 们 设 
置 的 开关 ， 即 当 2 = n 时 将 会 出 现 的 1:(n) = b(n <1) 这 个 情况 。 换 句 话 说， 这 种 情况 将 
在 i= logn 时 出 现 。 使 用 这 个 代 换 之 后 ， 会 得 到 : 
t(n) = 2"*" t(n / 2"*") + (log n)en = nt(1) + cenlog n=nb+cnlogn 


也 就 是 说 ， 我 们 得 到 了 (n) 就 是 O(n log n) 这 个 事实 的 一 个 可 供 替 代 的 证 明 。 


12.2.5 ”归并 排序 的 可 选 实现 


排序 链表 

归并 排序 算法 由 于 其 容器 类 型 而 很 容易 适用 于 使 用 一 个 基本 队列 的 任何 形式 。 在 代码 段 12-3 
中 ， 我 们 基于 7.1.2 节 提 到 的 Linked Queue 类 的 使 用 给 出 了 上 述 内 容 的 实现 。 命 题 12-2 中 
归并 排序 的 界 O(n log n) 同样 可 以 应 用 于 这 种 实现 ， 因 为 在 用 一 个 链表 实现 时 ， 每 个 基本 操 
作 均 消耗 OC) 的 时 间 。 我 们 在 图 12-7 中 展示 了 这 种 merge 算法 的 执行 过 程 。 


代码 段 12-3 ”使 用 基本 队列 的 归并 排序 实现 


| def merge(S1, S2, S): 

2  """Merge two sorted queue instances S1 and S2 into empty queue S.""" 

3 while not S1.is empty( ) and not S2.is empty( ): 

4 if S1.first( ) < S2.first(): 

5 S.enqueue(S1.dequeue( )) 

6 else: 

7 S.enqueue(S2.dequeue( )) 

8 while not S1.is empty(): # move remaining elements of S1 to S 
9 S.enqueue(S1.dequeue( )) 

10 while not S2.is empty(): # move remaining elements of S2 to S 
11 S.enqueue(S2.dequeue( )) 


13 def merge. sort(S): 
14  """Sort the elements of queue S using the merge-sort algorithm." "" 
15  n-len(S) 
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l6 ifn < 2: 


17 return & list is already sorted 

18 # divide 

19 S1 = LinkedQueue( ) # or any other queue implementation 
20 S2 = LinkedQueue() 

21 while len(S1) < n // 2: # move the first n//2 elements to S1 
22 S1.enqueue(S.dequeue( )) 

23 while not S.is empty( ): # move the rest to S2 


24 S2.enqueue(S.dequeue( )) 
25 44 conquer (with recursion) 


26 | merge.sort(S1) # sort first half 

27 “merge_sort(S2) # sort second half 

28 # merge results 

29 merge(S1, S2, S) # merge sorted halves back into S 
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(i) 
图 12-7 在 代码 段 12-3 中 使 用 队列 实现 的 归并 排序 的 执行 示例 


自 底 向 上 的 ( 非 递归 的 ) 归并 排序 

这 是 一 个 基于 数组 的 非 递 归 版 本 的 归并 排序 ， 运 行 时 间 为 O(n log n)。 在 实践 中 ， 它 会 
比 递归 的 归并 排序 略 快 一 些 ， 因 为 它 回避 了 递归 调用 的 额外 开销 并 且 在 每 一 级 都 有 临时 存储 
硕 。 这 种 算法 的 主要 思想 是 执行 自 底 向 上 的 归并 排序 ， 即 对 整个 归并 排序 树 自 底 向 上 逐 层 执 
行 合并 。 给 出 元 素 的 一 个 输入 数组 ， 我 们 将 每 个 连续 的 元 素 对 合并 成 有 序 的 ， 以 长 度 为 2 FF 
始 执行 。 然 后 再 合并 至 长 度 为 4、 长度 为 8 等 ， 以 此 类 推 ， 直 到 整个 数组 已 经 排序 完毕 。 为 
了 保持 合理 的 空间 使 用 情况 ， 我 们 使 用 一 个 二 维 数组 来 存储 这 些 合并 的 执行 过 程 (在 每 次 迭 
代 完 成 后 交换 输入 输出 数组 )。 我 们 在 代码 段 12-4 中 给 出 一 个 Python 语言 的 实现 。 一 个 近 
似 的 自 底 向 上 的 方法 可 以 被 用 于 排序 链表 ( 见 练习 C-12.29 ) 。 
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代码 段 12-4 ”一 个 非 递归 的 归并 排序 算法 的 实现 


def merge(src, result, start, inc): 


""" Merge src[start:start--inc] and src[start--inc:start--2*inc] into result." "" 


# boundary for run 1 
# boundary for run 2 


| 
2 
3 endl = start 十 inc 

4 end2 = min(start+2*inc, len(src)) 
5 x, y, Z = start, start--inc, start 

6 while x < endl and y < end2: 


# index into run 1, run 2, result 


7 if src[x] < src[y]: 

8 result[z] = src[x]; x += 1 # copy from run 1 and increment x 
9 else: 

10 result[z] = src[y]; y += 1 # copy from run 2 and increment y 
11 z+=1 # increment z to reflect new result 
12. ifx < endl: 

13 result[z:end2] = src[x:end1] # copy remainder of run 1 to output 
l4 elif y < end2: 

15 result[z:end2] — src[y:end2] # copy remainder of run 2 to output 


17 def merge.sort(S): 


i8 — """Sort the elements of Python list S using the merge-sort algorithm." " " 

19 n-len(S) 

20 logn = math.ceil(math.log(n,2)) 

21 src, dest = S, [None] + n # make temporary storage for dest 
22 for i in (2«*k for k in range(logn)): — 4 pass i creates all runs of length 2i 
23 for j in range(0, n, 2xi): # each pass merges two length i runs 
24 merge(src, dest, j, i) 


25 src, dest — dest, src # reverse roles of lists 
26 — ifSis not src: 


27 S[0:n] — src[0:n] 


12.3 ”快速 排序 


# additional copy to get results to S 


接 下 来 ， 我 们 将 讨论 快速 排序 。 如 同 归 并 排序 ， 这 个 算法 同样 是 基于 分 治 法 的 典范 ， 但 
是 它 在 使 用 这 项 技术 时 运用 了 相反 的 方式 ， 即 把 所 有 的 复杂 操作 在 递归 调用 之 前 做 完 。 


快速 排序 的 高 阶 描述 

快速 排序 算法 使 用 一 个 简单 的 递归 方法 将 序列 8 排序 。 
主要 思想 是 应 用 分 治 法 把 序列 8 分 解 为 子 序 列 ， 递 归 地 排 
序 每 个 子 序列 ， 然 后 通过 简单 串联 的 方式 合并 这 些 已 排序 
的 子 序列 。 特 别 地 ， 快速 排序 算法 由 以 下 3 个 步骤 组 成 (UU 
图 12-8). 

1) 分 解 : 如 果 S 有 至 少 2 个 元 素 (如 果 S 只 有 1 个 或 0 
个 元 素 ， 什 么 都 不 用 做 )， 从 $ 中 选择 一 个 特定 的 元 素 x， 称 
之 为 基准 值 。 一 般 情 况 下 ， 选 择 S 中 最 后 一 个 元 素 作 为 基准 
f x. MA S 中 移 除 所 有 的 元 素 ， 并 把 它们 放 在 3 个 序列 中 : 

e 工 存储 5S 中 小 于 x 的 元 素 

e EFKS 中 等 于 x 的 元 素 

e G 存储 S 中 大 于 x 的 元 素 


1. 使 用 基准 值 x 划分 





3. 连接 
图 12-8 快速 排序 算法 的 原理 图 


“OR, WAS 中 的 元 素 是 互 异 的 ， 那 么 将 只 含有 一 个 元 素 一 一 基准 值 自己 。 


2) 解决 子 问题 : 递归 地 排序 序列 过 和 G。 


3) 合并 : 把 5 中 的 元 素 按 照 先 插 入 工 中 的 元 素 、 然 后 插入 E 中 的 元 素 、 最 后 插入 G 中 
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的 元 素 的 顺序 放 回 。 

和 归并 排序 一 样 ， 快 速 排序 的 执行 也 可 以 用 二 叉 递 归 树 来 模拟 ， 称 作 快 速 排序 树 。 
图 12-9 通过 展示 对 快速 排序 树 的 每 个 节点 处 理 得 到 的 输入 输出 序列 ， 总 结 了 快速 排序 算法 
的 执行 情况 。 快 速 排序 树 的 逐步 评估 在 图 12-10 一 图 12-12 中 展示 。 








a) b) 


图 12-9 ”对 8 元素 序列 执行 快速 排序 算法 产生 的 快速 排序 树 7 : a) 对 了 的 每 个 节点 处 理 得 到 的 输入 序 
列 ; b) 对 了 的 每 个 节点 生成 的 输出 序列 。 每 一 级 递归 所 使 用 的 基准 值 用 粗 体 标 出 
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e) f) 
图 12-10 快速 排序 执行 过 程 的 模拟 。 树 的 每 一 个 节点 表示 一 个 递归 调用 。 虚 线 画 出 的 节点 表示 还 没 
访问 ， 粗 线 画 出 的 节点 表示 正在 调用 ， 细 线 画 出 的 节点 表示 已 经 访问 过 ， 剩 下 的 节点 表示 

延迟 访问 。 注 意 在 b、d 和 了 上 中 执行 的 分 解 步 又 ( 接 图 12-11 ) 


HIP IEEE 
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图 12-11 快速 排序 执行 过 程 的 模拟 。 注 意 在 k 上 执行 的 串联 步骤 ( 接 图 12-12) 





图 12-12 快速 排序 执行 过 程 的 模拟 。 在 p 和 q 之 间 的 一 些 调用 被 省 略 了 。 注 意 
在 o Mr 上 执行 的 串联 步骤 (上 接 图 12-11 ) 
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但 是 ， 与 归并 排序 有 所 区 别 的 是 ， 在 最 坏 情 况 下 ， 与 快速 排序 的 执行 相关 联 的 快速 排序 
树 的 高 度 是 线性 的 。 例 如 ， 当 序列 是 由 不 同 元 素 组 成 且 已 经 完成 排序 的 时 候 ， 这 种 情况 就 会 
发 生 。 在 这 种 情况 下 ， 把 最 后 一 个 元 素 作 为 基准 值 的 标准 选 法 会 产生 一 个 长 度 为 n -1 的 子 
序列 KL、 长 度 为 1 的 子 序列 E 和 长 度 为 0 的 子 序列 G。 在 子 序列 L 上 的 每 次 快速 排序 调用 ， 
L 的 长 度 都 减 1。 所 以 这 棵 快速 排序 树 的 高 为 n 一 1。 

在 一 般 序列 上 执行 快速 排序 

在 代码 段 12-5 中 ， 我 们 给 出 了 可 以 在 任意 序列 类 型 上 工作 的 快速 排序 算法 作为 队列 的 
实现 。 这 个 特别 的 版 本 依赖 于 7.1.2 节 提 到 的 Linked Queue 类 ， 我 们 使 用 12.3.2 节 提 到 的 基 
于 数组 的 序列 提供 了 一 个 更 为 精简 的 快速 排序 的 实现 方法 。 


代码 段 12-5 ”作为 队列 的 序列 S 的 快速 排序 实现 


| def quick. sort(S): 

2  """Sort the elements of queue S using the quick-sort algorithm." " " 
3 n-len(S) 
4 


if n « 2: 
return # list is already sorted 
6 # divide 
7 p= S.first( ) # using first as arbitrary pivot 


8  L = LinkedQueue( ) 
9 E= LinkedQueue() 
10 G = LinkedQueue() 


|| while not S.is empty(): # divide S into L, E, and G 
12 if S.first( ) < p: 

13 L.enqueue(S.dequeue( )) 

14 elif p « S.first(): 

15 G.enqueue(S.dequeue( )) 

16 else: # S.first() must equal pivot 
17 E.enqueue(S.dequeue( )) 

I8  # conquer (with recursion) 

19 quick_sort(L) # sort elements less than p 
20 . quick sort(G) # sort elements greater than p 
21 # concatenate results 


22 while not L.is empty(): 
23 S.enqueue(L.dequeue( )) 
24 while not E.is.empty(): 
25 S.enqueue(E.dequeue( )) 
26 while not G.is empty(): 
27 S.enqueue(G.dequeue( )) 


我 们 的 实现 方法 是 选择 第 一 个 元 素 当 作 基 准 值 ( 因 为 这 比较 容易 理解 )， 然 后 用 它 将 序 
列 5 分解 为 分 别 小 于 、 等 于 和 大 于 基准 值 元 素 的 队列 KL、E 和 C。 之 后 我 们 在 工 和 C 表 上 递 
H, FIR L, EM G 上 的 元 素 转移 回 8 队列 。 当 用 一 个 链表 来 实现 时 ， 所 有 的 队列 操作 
在 最 坏 情 况 下 的 运行 时 间 均 为 0(1)。 

快速 排序 的 运行 时 间 

我 们 可 以 使 用 与 12.2.3 节 中 用 于 分 析 归 并 排序 运行 时 间 相 同 的 方法 来 分 析 快 速 排序 的 
运行 时 间 。 也 就 是 说 ,我 们 可 以 确认 在 快速 排序 树 了 上 的 每 个 节点 的 时 间 开 销 ， 并 求 出 所 有 
节点 的 运行 时 间 总 和 。 

测试 代码 段 12-5， 可 以 看 到 分 解 步骤 和 快速 排序 的 最 终 串联 可 以 在 线性 时 间 内 实现 。 
因此 ,在 了 的 节点 v 上， 时 间 开 销 是 与 v 的 输入 规模 sv) 成 比例 的 ， 根 据 与 节点 相 联系 的 
快速 排序 调用 所 处 理 的 序列 大 小 来 定义 。 因 为 子 序 列 E 至 少 有 一 个 元 素 (基准 值 )， 所 以 节 
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Ay 的 子 节点 的 总 输入 长 度 最 多 为 s(v) - 1。 

用 5; 表示 一 棵 特定 的 快速 排序 树 在 深度 为 i 处 节点 的 输入 长 度 总 和 。 很 明显 ， 由 于 树 
7 的 根 + 与 整个 序列 有 联系 ， 所 以 So n。 同 样 地 ， 由 于 基准 值 不 会 传 给 + 的 子 节点 ， 所 以 
S 三 n 一 1。 一 般 来 说 , 会 有 si < s;-1!， 这 是 因为 在 深度 为 i 处 的 子 序列 的 所 有 元 素 均 来 自 不 同 
的 深度 为 (i 一 1) 的 子 序列 ， 男 外 ， 至 少 会 有 一 个 深度 为 i 一 1 的 元 素 不 会 传递 到 深度 ;处 ， 这 是 
因为 它 处 于 集合 E 中 (EXE, 任何 一 个 深度 为 i- 1 的 节点 的 元 素 都 不 会 传递 到 深度 i 上)。 

我 们 可 以 由 此 给 出 一 个 形 如 O(n - h) 的 快速 排序 执行 的 整体 运行 时 间 范 围 (其 中 4 为 
该 执行 的 快速 排序 树 7 的 整体 高 度 )。 不 幸 的 是 ， 在 最 坏 的 情况 下 ， 如 同 我 们 在 12.3 节 看 到 
的 ， 快 速 排序 树 的 高 为 6(n)。 因 此 ， 快 速 排 序 在 最 坏 情况 下 运行 时 间 为 Om). Am AHF 
盾 的 是 ， 如 果 我 们 选择 基准 值 作为 序列 的 最 后 一 个 元 素 ， 这 一 最 坏 情 况 行 为 在 排序 很 容易 完 
成 的 时 候 就 会 发 生 ， 即 在 序列 已 经 有 序 的 时 候 。 

正如 它 的 名 字 一 样 ， 我 们 期 望 快速 排序 可 以 运行 得 很 快 ， 而 且 事 实 上 它 确 实 很 快 。 快 
速 排序 的 最 好 情况 发 生 在 序列 由 不 同 的 元 素 组 成 ， 且 子 序列 工 与 G 的 大 小 大 致 相等 的 时 候 。 
在 这 种 情形 下 ， 如 同 归 并 排序 一 样 ， 排 序 树 的 高 度 为 O(log n)， 所 以 快速 排序 运行 时 间 为 
O(nlog n)， 我 们 把 这 个 事实 的 证 明 留 作 练 习 R-12.10。 更 重要 的 是 ， 即 使 L 和 G 的 分 割 不 是 
那么 完美 ， 我 们 也 还 是 可 以 观察 到 形 如 O(n log n) 的 运行 时 间 。 例 如 ， 如 果 每 个 分 解 步 骤 都 
造成 一 个 包含 了 1/4 总 元 素 的 子 序 列 ， 那 么 其 他 的 步骤 则 包含 了 剩 下 3/4 的 元 素 ， 因 此 树 的 
剩余 高 度 为 O(log n)， 总 的 执行 代价 为 O(n log n); 

我 们 将 在 下 一 节 看 到 ， 基 准 值 选择 的 随机 化 引入 将 使 得 快速 排序 通常 以 这 种 方式 表现 ， 
即 能 达到 期 望 的 运行 时 间 O(n log n)o 


12.3.4 随机 快速 排序 


分 析 快 速 排序 的 一 般 方法 是 假设 基准 值 总 是 能 将 序列 以 合理 的 、 平 衡 的 方式 分 解 。 尽 管 
我 们 预先 假设 了 有 关 输 入 分 布 的 知识 ， 但 这 些 输入 分 布 通常 是 不 可 用 的 。 例 如 ， 我 们 将 不 得 
不 假设 得 到 一 个 几乎 排 好 的 序列 去 进行 排序 是 极 少见 的 情况 ， 这 在 许多 应 用 中 很 常见 。 幸 运 
的 是 ， 并 不 需要 该 假设 去 匹配 我 们 对 于 快速 排序 行为 的 直觉 。 

一 般 来 说 ,我 们 希望 一 些 方 法 可 以 使 快速 排序 的 运行 时 间 更 接近 最 好 情况 的 运行 时 间 。 
当然 ， 这 种 接近 最 优 和 运行 时 间 的 方法 ， 就 是 使 得 基准 值 近乎 均 分 输入 序列 S$。 如 果 这 一 结果 
发 生 ， 将 导致 运行 时 间 趋 近 于 最 好 的 运行 时 间 。 这 就 是 说 ， 让 基准 值 尽 量 接近 元 素 集合 的 
“中 间 ”， 会 使 快速 排序 的 运行 时 间 达 到 O(n log n)。 

随机 选择 基准 值 

因为 快速 排序 方法 划分 步骤 的 目的 是 把 序列 8 分 解 得 足够 平衡 ， 因 此 我 们 为 算法 引入 随 
机 化 的 概念 并 且 选 择 输入 序列 的 一 个 随机 元 素 作 为 基准 值 。 也 就 是 说 ， 为 了 代替 选择 S 的 第 
一 个 或 最 后 一 个 元 素 作为 基准 值 ， 我 们 选择 S 中 的 一 个 随机 元 素 作为 基准 值 ， 并 且 保 持 算法 
的 其 余部 分 不 变 。 这 种 变化 的 快速 排序 称 为 随机 快速 排序 。 以 下 命题 展示 了 一 个 n 元 素 序列 
的 随机 化 快速 排序 的 期 望 运 行 时 间 是 O(n log n)。 这 个 期 望 涵盖 了 算法 造成 的 所 有 可 能 的 随 
机 选择 ， 并 且 独 立 于 算法 包含 的 任何 关于 可 能 的 输入 序列 分 布 的 假设 。 

命题 12-3. 一 个 大 小 为 于 的 序列 8$， 其 随机 化 快速 排序 的 期 望 运行 时 间 为 O(n log n)。 

证 明 : 我 们 假设 5 中 的 两 个 元 素 可 以 在 0(1) 的 时 间 内 比较 。 考 虑 一 个 单独 的 随机 化 快 
速 排序 的 递归 调用 ， 然 后 用 n 表示 该 调用 的 输入 序列 大 小 。 如 果 基 准 值 的 选择 使 得 每 个 子 序 


Jj LA G3 8/bP n4, BS 3n/A 的 长 度 ， 我 们 可 以 称 之 为 “好 ”的 选择 ， 否 则 ， 我 们 称 之 
为 “ 坏 ” 的 选择 。 

现在 ， 考 虑 用 随机 法 均匀 地 选择 基准 值 带 来 的 影响 。 注 意 ， 对 于 任意 给 出 的 随机 快速 排 
序 算法 大 小 为 n 的 调用 ,将 有 n2 种 基准 值 选 择 可 能 是 好 的 选择 。 因 此 ， 任 意 的 调用 都 是 好 
的 可 能 性 为 /2。 更 加 值得 注意 的 是 ， 一 个 好 的 调用 至 少将 一 个 大 小 为 n 的 列表 分 割 为 两 个 
大 小 为 3n/4 All n/4 的 列表 ， 同 时 ， 一 个 不 好 的 调用 有 可 能 和 产生 一 个 单独 的 大 小 为 n -1 的 
调用 一 样 不 好 。 

现在 考虑 一 个 随机 化 快速 排序 的 递归 追踪 。 这 个 追踪 定义 了 一 个 二 又 树 7， 这 样 了 的 每 
个 节点 相当 于 在 排序 部 分 原始 列表 的 子 问题 上 的 一 个 不 同 的 递归 调用 。 

我 们 说 如 果 v 的 子 问题 大 小 大 于 3/4) * n 且 最 大 为 G/Ayn, 7 的 节点 v 就 在 尺寸 组 i 中 。 
我 们 来 分 析 一 下 在 尺寸 组 i 内 节点 的 所 有 子 问题 上 工作 花费 的 期 望 时 间 。 根 据 期 望 的 线性 性 
质 (命题 B-19 )， 在 这 些 子 问题 上 工作 的 期 望 时 间 是 所 有 期 望 时 间 的 总 和 。 其 中 的 一 些 节 点 
对 应 好 的 调用 ， 而 另 一 些 则 对 应 不 好 的 调用 。 但 是 值得 注意 的 是 ， 因 为 一 个 好 的 调用 出 现 的 
可 能 性 为 /2， 所 以 在 得 到 一 个 好 的 调用 之 前 ， 那 些 我 们 不 得 不 做 的 连续 调用 的 期 望 数量 是 
2。 另 外 值得 注意 的 是 ， 一 旦 我 们 对 在 尺寸 组 i 中 的 一 个 节点 产生 了 好 的 调用 ， 那 它 的 孩子 
将 会 出 现在 高 于 i 的 尺寸 组 中 。 因 此 ， 对 于 来 自 输入 列表 的 任意 元 素 x， 在 其 子 问 题 中 ,， 包 
含 x 的 尺寸 组 i 中 的 期 望 节点 的 数量 为 2。 换 句 话说， 所 有 尺寸 组 i 的 子 问 题 的 期 望 总 规模 
为 2n9。 由 于 我 们 为 一 些 子 问 题 执行 的 非 递 归 的 工作 是 与 其 规模 成 比例 的 ， 这 意味 着 处 理 尺 
寸 组 i 中 节点 子 问 题 的 总 体 期 望 时 间 是 O(n)。 

因为 重复 地 乘 以 3/4 与 重复 地 除 以 4/3 是 等 价 的 ， 所 以 这 些 尺 寸 组 的 数量 为 logs3n。 这 
就 是 说 ， 这 些 尺寸 组 的 数量 是 O(log n)。 因 此 ， 随 机 化 快速 排序 的 总 的 期 望 运行 时 间 为 O(n 
log n)( 见 图 12-13 )。 m 







尺寸 组 大 小 size group 0 HUM 


O(log n) 
O(n) 


总 期 望 时 间 ， O(n log n) 
图 12-13 ”快速 排序 树 了 的 时 间 分 析 。 每 个 节点 均 用 其 子 问 题 的 大 小 标记 显示 


实际 上 存在 很 大 的 可 能 性 ， 使 得 随机 化 快速 排序 的 运行 时 间 为 O(n log n) ( 见 练 习 C- 
12.54). 


12.3.2 快速 排序 的 额外 优化 
对 一 个 算法 来 说 ， 如 果 它 除了 原始 所 需 的 内 存 以 外 ， 仅 仅 只 使 用 少量 的 内 存 ， 则 该 算法 
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是 就 地 算法 。 我 们 对 于 在 9.4.2 节 中 提 到 的 堆 排 序 的 实现 就 是 一 个 就 地 排序 算法 的 例子 。 因 为 
当 我 们 在 每 一 步 递 归 调 用 中 分 解 序列 S$ 时 ,使 用 了 额外 的 容器 L、E 和 G， 所 以 代码 段 12-5 
中 的 快速 排序 的 实现 不 是 就 地 算法 的 例子 。 一 个 基于 数组 的 序列 的 快速 排序 可 以 适 配 为 就 地 
的 ， 并 且 这 样 的 优化 被 用 于 大 多 数 的 部 署 实 现 。 

然而 ， 就 地 执行 快速 排序 算法 需要 一 些 技 巧 ， 对 于 所 有 的 递归 调用 ， 我 们 必须 使 用 输 
入 序列 本 身 来 存储 其 子 序列 。 我 们 给 出 执行 就 地 快速 排序 的 算法 inplace_quick_sort， 详 见 
代码 段 12-6。 我 们 假设 输入 序列 S 的 元 素 是 以 Python list 的 形式 呈现 的 。 就 地 快速 排序 通过 
使 用 元 素 交 换 的 方法 改变 输入 序列 ， 并 且 隐 式 地 创建 新 的 子 序列 。 相 反 ， 输 入 序列 的 子 序列 
却 隐 式 地 通过 一 个 被 最 左 索引 a 和 最 右 索 引 b 所 指定 的 位 置 范 围 表 示 出 来 。 分 解 步 骤 是 通过 
使 用 向 前 移动 的 本 地 变量 left 和 向 后 移动 的 本 地 变量 right 同时 扫描 数组 ， 并 交换 逆序 的 元 
素 对 实现 的 〈( 见 图 12-14 )。 当 这 两 个 索引 互相 经 过 时 ， 分解 的 步骤 就 完成 了 ， 并 且 该 算法 会 
在 这 两 个 子 序列 上 递归 完成 。 这 里 没有 明确 的 “合并 ”步骤 是 因为 这 两 个 子 表 的 串联 对 于 原 
始 表 的 就 地 使 用 来 说 是 隐 式 的 。 


代码 段 12-6 对 Python 列表 S 的 就 地 快速 排序 


def inplace_quick_sort(S, a, b): 
""" Sort the list from S[a] to S[b] inclusive using the quick-sort algorithm." "" 


3 wW = 


if a >= b: return # range is trivially sorted 
4 pivot = S[b] # last element of range is pivot 
5 left — a # will scan rightward 
6 right = b-1 # will scan leftward 
7 while left <= right: 
8 # scan until reaching value equal or larger than pivot (or right marker) 
9 while left <= right and S[left] < pivot: 
10 left += 1 
11 # scan until reaching value equal or smaller than pivot (or left marker) 
12 while left —— right and pivot « S[right]: 
13 right —— 1 
14 if left <= right: # scans did not strictly cross 
15 S[left], S[right] = S[right], S[left] # swap values 
16 left, right = left + 1, right — 1 # shrink range 


18  # put pivot into its final place (currently marked by left index) 
19 Sfleft], S[b] = S[b], S[left] 

20 # make recursive calls 

21 inplace_quick_sort(S, a, left — 1) 

22 inplace_quick_sort(S, left + 1, b) 


值得 注意 的 是 ， 如 果 一 个 序列 有 重复 的 值 ， 我 们 就 不 会 像 对 原始 快速 排序 的 描述 那 
样 ， 明 确 地 创建 三 个 子 序 列 L、E 和 G。 相 反 ， 我们 会 允许 等 于 基准 值 的 元 素 (除了 基准 
值 本 身 ) 分 散 地 分 布 在 这 两 个 子 表 中 。 练 习 R-12.11 探索 了 我 们 在 重复 的 关键 值 出 现时 所 
做 的 处 理 的 精妙 之 处 ， 练 习 C-12.33 则 描述 了 一 个 严格 分 区 为 三 个 子 表 L、E 和 G 的 就 地 
算法 。 

尽管 我 们 在 这 章 描述 的 将 一 个 序列 分 解 为 两 部 分 的 实现 方法 是 就 地 的 ， 但 仍 要 注意 ， 完 
整 的 快速 排序 算法 需要 的 栈 空 间 与 递归 树 的 深度 是 成 正比 的 ， 在 这 种 情况 下 树 的 深度 最 大 可 
为 n -1。 毫 无 疑问 ， 我 们 期 望 的 栈 的 深度 是 比 n 要 小 的 O(log n)。 一 个 简单 的 技巧 使 得 我 们 
可 以 保证 这 个 栈 的 大 小 是 O(log n)。 其 主要 想法 是 ， 设 计 一 个 非 递 归 的 就 地 快速 排序 版 本 ， 
使 用 一 个 明确 的 栈 来 迭代 地 处 理子 问题 (每 一 个 子 问题 可 以 用 标记 子 数组 边界 的 索引 对 来 表 
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示 )。 每 个 迭代 过 程 都 包含 抛 出 最 顶端 的 子 问 题 ， 并 将 其 分 成 两 半 REKKE), PUn 
将 两 个 子 问题 入 栈 。 这 个 技巧 是 ， 当 入 栈 一 个 新 的 子 问 题 时 ,我 们 应 该 首先 人 栈 更 大 的 子 问 
题 ， 然 后 才 将 较 小 的 子 问 题 人 栈 。 用 这 


























种 方法 ， 子 问题 的 规模 将 至 少 是 栈 的 两 Ls n Hom Dou m3 
倍 ， 因 此 ， 这 个 栈 的 深度 至 多 可 以 达到 : 
O(log n)。 我 们 将 这 个 方法 的 具体 实现 留 cÉ n 
作 练 习 P-12.56。 gc 
基准 值 的 选择 (31 24 63 45 17 85 96 50) 
在 这 一 章 ， 我 们 的 实现 方法 在 每 2 o)" 
一 层 快速 排序 的 递归 中 ， 盲目 地 使 用 最 
后 一 个 元 素 作为 基准 值 。 这 使 其 易 受 到 二 E 9 m) 
6 (n?) 这 种 最 坏 情况 的 影响 ， 尤 其 是 当 原 9 
始 序列 是 一 个 已 经 有 序 、 逆 序 或 近乎 有 » s H oS mos s s 
序 的 序列 时 。 e) 
如 同 在 12.3.1 节 所 描述 的 ， 这 可 以 — em — 3 
通过 使 用 在 每 个 分 区 步骤 随机 选择 基准 i^ 
值 的 方法 进行 改进 。 在 实践 中 ， 另 一 种 31 24 17 45 50 85 96 63 
选择 基准 值 的 常用 技巧 是 使 用 从 数组 的 g) 
头 部 、 中 部 和 尾部 各 自 取 得 的 树 的 值 的 ”图 12-14 使 用 索引 作为 标识 符 left 的 简写 、 索 引 r 作 
中 位 数 。 这 种 三 数 取 中 的 启发 式 搜索 法 为 标识 符 right 的 简写 的 就 地 快速 排序 的 分 
将 更 多 地 选择 到 好 的 基准 值 ， 并 且 计 算 MER Bal /从 左 到 右 扫 描 整 个 序列 ， 索 
一 棵 树 的 中 值 可 能 相 比 通过 生成 随机 数 引 则 从 右 到 左 扫描 整个 序列 。 当 /7 所 处 的 
来 选择 基准 值 而 言 ， 需 要 更 少 的 开销 。 元 素 和 基准 值 一 样 大 ， 且 所 处 的 元 素 与 基 
对 于 更 大 的 数据 集合 ， 可 能 需要 计算 多 准 值 一 样 小 的 时 候 发 生 交 换 。 最 后 和 基准 
于 三 个 潜在 基准 值 的 中 值 。 值 发 生 交换 ， 然 后 完成 分 解 步 又 
混合 方法 


虽然 快速 排序 在 大 量 的 数据 集合 上 有 着 非常 好 的 性 能 ， 但 却 在 相关 的 小 数据 集合 上 有 着 
更 高 的 开销 。 例 如 ， 用 快速 排序 的 方法 处 理 8 个 元 素 的 序列 ， 正 如 图 12-10 一 图 12-12 rp Bi] 
明 的 一 样 ， 包 含 了 相当 大 的 统计 记录 。 在 实际 操作 中 ， 当 我 们 需要 排序 一 个 很 短 的 序列 时 ， 
像 插 入 排序 (7.5 节 ) 这 样 的 简单 算法 就 可 以 更 快 地 执行 。 

因此 ， 在 最 优 的 排序 实现 中 ， 使 用 混合 方法 是 屡见不鲜 的 : 利用 分 治 算法 使 子 序 列 的 大 
小 降 到 某 个 净值 (假设 50 个 元 素 ) 以 下 ;， 当 处 于 这 个 阔 值 以 下 时 ， 使 用 插 和 人 排序 直接 调用 
上 面 的 部 分 。 在 比较 多 种 排序 算法 的 性 能 时 ， 我 们 将 在 12.5 节 中 更 多 地 讨论 这 种 实际 性 的 


12.4 再 论 排序 算法 视角 


重 述 一 下 我 们 对 于 这 个 视角 下 的 排序 的 讨论 ， 前 面 已 经 描述 了 一 些 方法 ， 要么 是 处 于 最 
坏 的 情况 ， 要 么 是 在 长 度 为 n 的 输入 序列 上 ， 预 期 运行 时 间 为 O(n log n)。 这 些 方 法 包括 我 
们 在 本 章 描述 的 归并 排序 和 快速 排序 ， 同 时 也 包括 堆 排 序 ( 9.4.2 节 )。 在 这 一 节 ， 我 们 把 排 
序 作为 算法 问题 来 学 习 ， 人 处理 排 序 算法 的 一 般 问题 。 
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12.4.1 HER RR 


首先 要 问 的 是 ,我 们 是 否 可 以 使 排序 所 用 时 间 比 O(n log n) 小 。 有 趣 的 是 ， 如 果 排 序 算 
法 的 原始 计算 是 两 个 元 素 的 比较 ， 其 实 这 是 我 们 可 以 做 到 的 ， 基 于 比较 的 排序 算法 在 最 坏 
的 情况 下 有 O(n log n) 的 运行 时 间 下 界 (回想 3.3.1 节 的 OC) 符号 ) 。 出 于 运行 时 间 下 界 的 缘 
故 ， 我 们 只 考虑 比较 所 花费 的 时 间 ， 从 而 着 重 考虑 基于 比较 的 排序 算法 的 主要 花费 。 

设想 现在 给 你 一 个 8 = (xo, xi, 7x8 2) 的 序列 去 排序 ， 并 且 假 设 5 中 所 有 元 素 是 不 同 的 
(因为 我 们 得 到 了 一 个 下 限 ， 所 以 这 不 是 一 个 真正 的 限制 )。 出 于 下 界 的 缘故 ， 我 们 不 关心 s 
是 作为 数组 还 是 链表 实现 的 ， 因 为 我 们 在 这 里 只 统计 比较 次 数 。 每 一 次 排序 算法 都 比较 两 个 
JE X x; fl x, (是否 x;< 尺 )， 有 两 种 输出 结果 :“ 是 ”与 “ 否 ”。 基 于 这 次 比较 的 结果 ， 排 序 算 
法 可 能 会 执行 一 些 内 部 计算 (我 们 没有 统计 这 些 时 间 开 销 )， 并 且 最 后 算法 会 执行 5S 中 男 外 
两 个 元 素 的 比较 ， 这 里 我 们 将 再 次 得 到 两 个 输出 结果 。 因 此 我 们 可 以 使 用 描述 树 了 来 代表 一 
个 基于 比较 的 排序 算法 (回想 例题 8-6 )， 即 在 7 中 的 每 个 内 部 节点 v 对 应 一 个 比较 ， 并且 从 
位 置 v 到 它 孩 子 的 边 对 应 来 自 “ 是 ”或 者 “ 否 ” 答 案 的 计算 结果 。 值 得 注意 的 是 ， 问 题 中 假 
设 的 排序 算法 对 树 7 没有 明确 的 概念 。 树 仅仅 代表 从 第 一 次 比较 开始 到 最 后 一 次 比较 结束 所 
有 可 能 会 被 排序 算法 执行 的 序列 。 

对 于 每 个 可 能 的 初始 序列 或 者 排列 ，5 中 的 元 素 将 导致 我 们 假设 的 排序 算法 执行 一 系列 
比较 ， 遍 历 了 中 一 条 从 根 到 一 些 外 部 节点 的 路 径 。 我 们 关联 树 了 中 的 每 个 外 部 节点 v， 那 么 
S 的 排列 的 集合 会 造成 排序 算法 在 v 中 结束 。 在 有 关 下 界 的 讨论 过 程 中 ， 最 重要 的 意见 是 7 
中 的 每 一 个 外 部 节点 都 可 以 表示 这 个 排列 S 中 比较 次 数 最 多 的 序列 。 这 个 结论 的 证 明 是 非常 
简单 的 : 如 果 5 的 两 个 不 同 的 排列 P. 和 P; 与 相同 的 外 部 节点 相关 联 ， 那么 至 少 有 两 个 对 象 
xi Al xj, 在 Pi 中 ， xi TE x; 的 前 面 ， 在 P, H, xi TE x; 的 后 面 。 同时 ， 无 论 把 x; RI x; 哪 一 个 放 
在 前 面 ， 与 v 相关 联 的 输出 必定 是 一 个 S 的 特定 的 重 排序 列 。 但 是 ， 如 果 Pl 和 P, 都 导致 排 
序 算法 按 此 顺序 输出 5S 中 的 元 素 ， 那 就 意味 着 有 一 个 方法 使 得 算法 以 错误 的 顺序 输出 x; 和 
x;。 因 为 这 不 被 正确 的 排序 算法 允许 ， 所 以 7 中 每 一 个 外 部 节点 都 必须 和 一 个 正确 的 5S 序列 
相关 联 。 我 们 使 用 与 排序 算法 相关 联 的 决策 树 的 属性 来 证 明 以 下 结果 。 

命题 12-4: 任何 基于 比较 的 排序 算法 对 有 个 元 素 的 序列 排序 所 花费 时 间 都 是 Q (n log n). 

证 明 : 按照 上 面 的 描述 ( 见 图 12-15), 一 个 基于 比较 的 排序 算法 必要 的 运行 时 间 大 于 或 等 于 
与 此 排列 相关 联 的 判定 树 了 的 高 度 。 通 过 上 面 的 
分 析 ， 每 一 个 判定 树 了 中 外 部 节点 必须 与 5 中 的 。 ,扰民 的 运行 时间 
一 个 排列 关联 。 更 进一步 来 说 ，5 的 每 一 个 排列 必 
须 产 生 一 个 不 同 的 T 中 的 外 部 节点 。n 个 对 象 的 排 
列 的 个 数 为 n=n (n-1)(n-2) 2.1. Alt, T 
必须 具有 至 少 nl 个 外 部 节点 。 由 命题 8-8，7 的 高 
度 至 少 为 log(n!)。 这 立刻 证 明了 命题 ， 因 为 至 少 
有 n2 项 在 结果 n! 中 是 大 于 或 等 于 n/2 的 。 因 此 : 


pj 


空间 复杂 度 为 (n log n); hi 图 12-15 ”基于 比较 的 排序 算法 的 下 界 






log(n!) 


log (n!)> log 











12.4.2 ”线性 时 间 排 序 : 桶 排序 和 基数 排序 


在 上 一 节 中 ,我们 发 现 ， 在 最 坏 的 情况 下 基于 比较 排序 算法 去 排序 一 个 含有 nn 个 元 素 的 
序列 必须 花费 Q (n log n) 的 时 间 。 一 个 很 自然 想到 的 问题 是 ， 是 否 有 其 他 类 型 的 排序 算法 
运行 的 渐 近 速度 比 O(n log n) 快 ? 有 趣 的 是 ， 这 样 的 算法 存在 ,但 它们 需要 对 输入 的 特殊 
假设 序列 进行 排序 。 即 使 如 此 ， 这 样 的 情况 下 还 是 经 常 出 现在 实际 中 ， 例如， 在 已 知 的 范围 
内 排序 整数 或 排序 字符 串 的 时 候 ， 这 样 的 讨论 就 是 值得 的 。 在 本 节 中 ， 我 们 考虑 排序 条 目 序 
列 的 问题 ， 每 一 个 键 值 对 中 的 键 有 一 个 限制 的 类 型 。 

桶 排序 

对 于 一 个 由 nn 个 条 目 构成 的 序列 $S, 5S 中 的 键 值 由 [0, N — 1] 中 的 整数 构成 ， 并 且 整 
BIN 三 2， 并 且 对 于 序列 S$S 来 说 我 们 应 该 根据 每 一 项 中 的 键 值 来 排序 。 在 这 个 例子 中 ， 在 
O(n + N) 时 间 内 排 完 序 有 很 大 的 可 能 性 。 令 人 惊讶 的 是 这 似乎 意味 着 ,如果 N 是 Oln), H 
么 我 们 就 可 以 在 O(n) 时 间 内 排 完 序 。 当 然 ， 非 常 重要 的 一 点 是 由 于 严格 限制 了 元 素 的 格式 ， 
使 得 我 们 在 排序 过 程 中 避免 了 比较 。 

其 主要 思想 是 使 用 所 谓 的 桶 排序 的 算法 ， 它 不 是 基于 比较 来 排序 ， 而 是 使 用 键 值 作为 插 
ARCH B 的 目录 ,数组 B 具 有 从 0 到 NN — 1 进行 索引 的 网 格 。 具 有 关键 字 的 项 被 放置 在 
“HA” B[k] 中 ， 这 个 桶 本 身 就 是 序列 (包含 键 值 为 的 条 目 )。 在 将 输入 序列 5S 的 每 个 条 目 插 
入 它 的 桶 中 之 后 ， 我 们 可 以 通过 按 序 枚 举 B[0], B], …, BIN - 1] 把 这 些 项 放 回 5S 中。 在 
代码 段 12-7 中 描述 了 桶 排序 算法 。 


代码 段 12-7” 桶 排序 
Algorithm bucketSort(S): 

Input: Sequence S of entries with integer keys in the range [0,N — 1] 
Output: Sequence S sorted in nondecreasing order of the keys 
let B be an array of N sequences, each of which is initially empty 
for each entry e in S do 

k — the key of e 

remove e from S and insert it at the end of bucket (sequence) B[k] 
for i = 0 to N—1 do 

for each entry e in sequence B[i] do 

remove e from B[i] and insert it at the end of S 


很 容易 看 出 ， 桶 排序 运行 需要 O (n+ N) 的 时 间 ， 并 且 使 用 O (n N) 的 空间 。 因 此 ， 
当 键 的 值 的 范围 N 与 序列 大 小 相 比 很 小 时 ， 桶 排序 是 高 效 的 ,可 以 说 N= O(n) 和 NM=O 
(nlog n)。 而 当 N 与 n 相 比 开 始 增 长 时 ， 它 的 性 能 会 降低 。 

桶 排序 算法 的 一 个 重要 特性 是 : 即使 许多 不 同 的 元 素 有 相同 的 键 值 ， 它 也 能 得 到 正确 的 
结果 。 事 实 上 ， 我 们 用 一 些 预测 特殊 情况 的 方法 来 描述 它 。 

稳定 排序 

在 排序 键 值 对 时 ， 一 个 重要 的 问题 是 相等 的 键 值 是 如 何 处 理 的 。 令 8S= (Ko, vo), +, (ka-1, 
Y, -1)) 为 表示 这 些 条 目的 序列 。 一 个 稳定 的 排序 算法 是 指 ， 对 于 S 中 任意 的 两 个 条 目 ( v) 
和 (Kj, vj), ki = kj, 并 且 排 序 前 (ki, vi) 在 (Kj, Vj) 的 前 面 ， 排序 后 (ki, vi) 也 在 (Kj, Vj) 的 前 面 。 
对 于 一 个 排序 算法 来 说 稳定 性 是 非常 重要 的 ， 因 为 应 用 程序 或 许 想 用 相同 的 键 保 留 原始 
顺序 。 

只 要 我 们 保证 把 所 有 的 序列 当 作 元 素 从 序列 尾 插入 从 序列 头 删 除 的 队列 来 看 待 ， 就 能 保 
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证 在 代码 段 12-7 中 简洁 描述 的 桶 排序 算法 的 稳定 性 。 即 当 最 初 将 S 中 的 元 素 放置 到 桶 的 时 

候 ， 我 们 应 该 从 头 到 尾 处 理 8$， 然 后 把 所 有 的 元 素 添 加 到 桶 的 尾部 。 随 后 ， 当 从 桶 中 传递 元 

素 回 到 S 的 时 候 ， 我 们 应 该 从 头 到 尾 处 理 每 个 BU] 元素， 然后 把 元 素 添 加 到 S 的 尾部 。 
基数 排序 

排序 的 稳定 性 如 此 重要 的 一 个 原因 是 ， 它 允许 桶 排序 方法 应 用 到 更 加 普通 的 文字 排序 而 
不 仅仅 局 限于 整数 排序 。 设 想 一 下 ， 我 们 的 排序 项 由 (k, D 构成 , 大 和 1 是 在 [0, N — 1] 范围 
内 的 整数 (N z 2)。 在 这 样 的 背景 下 ， 使 用 字典 序 来 定义 这 些 键 的 顺序 是 很 常见 的 ， 如 果 hh < 
bAEdk-hHlhczLhHf, (ki, h) < (ha, bh)o 这 是 一 个 字典 比较 函数 的 成 对 的 版 本 ,可 以 把 
它 应 用 到 相同 长 度 的 字符 串 或 者 长 度 为 d 的 元 组 中 。 

基数 排序 算法 通过 对 序列 应 用 两 次 稳定 的 桶 排序 算法 从 而 对 具有 成 对 键 的 条 目的 序列 S 
进行 排序 。 首 先 使 用 成 对 的 键 中 的 第 一 项 作为 键 来 排序 ， 然 后 使 用 第 二 项 作为 键 来 排序 。 但 
是 这 种 顺序 是 否 正确 呢 ? 我 们 是 否 应 该 首先 对 大 ( 键 对 的 第 一 项 ) 进行 排序 ， 然 后 对 1 ( 键 对 
的 第 二 项 ) 进行 排序 ， 或 者 反 过 来 ? 

为 了 在 回答 这 个 问题 前 获得 一 些 直观 感受 ， 我 们 考虑 一 下 下 面 的 例题 。 

例题 12-5: 考虑 下 面 的 序列 S (我 们 只 显示 了 键 ): 

$= ((3, 3), 0 

如 果 我 们 对 5 中 键 对 的 第 一 项 进行 稳定 排序 ， 将 得 到 序列 

Si — (1, 5), (1, 2), (1, 7), (2, 8), 2, 3). 2, 2), 3, 3), (3, 2)) 
如 果 我 们 接着 对 序列 S, 中 键 对 的 第 二 项 进行 稳定 排序 的 话 ， 将 得 到 序列 
$13 =C 2 22G G; D SS A 7 
可 惜 它 并 不 是 一 个 有 序 序列 。 另 一 方面 ， 如 果 我 们 首先 对 8 中 键 对 的 第 二 项 进行 稳定 排 
序 ， 会 获得 序列 
5$ —((1, 2), (3, 2), (2, 2), 8,9, Q. 3), (1, 5), (2, 5), CL, 7)) 
如 果 我 们 接着 对 S; 中 键 对 的 第 一 项 进行 稳定 排序 ， 将 获得 序列 
Sy = ((L, 2), (1, 5), CI, 7),:0, 2), 2, 3), (2, 5), (3, 25, GB, 3)) 

这 的 确 是 序列 8 的 字典 序 排序 结果 。 

所 以 ， 从 这 个 例子 中 ， 我 们 相信 应 该 按照 先 第 二 项 、 后 第 一 项 的 顺序 来 排序 。 这 种 直觉 是 
完全 正确 的 。 按 照 先 第 二 项 、 后 第 一 项 的 顺序 ， 我 们 可 以 保证 ， 如 果 两 个 条 目 在 第 二 次 排序 GC 
第 一 项 ) 中 是 相等 的 ， 那 么 它们 的 起 始 序列 ( 按 第 二 项 排序 得 到 的 ) 中 的 相对 顺序 将 被 保留 下 
来 。 因 此 ， 所 产生 的 序列 可 以 保证 每 次 都 是 按照 字典 序 排序 。 我 们 留 一 个 简单 的 练习 R-12.18 : 
如 何 将 这 种 方法 扩展 到 可 以 测定 三 元 组 和 数字 的 其 他 d 元 组 。 我 们 可 以 将 这 一 节 内 容 总 结 如 下 。 

命题 12-6 : 假设 8$ 是 一 个 有 于 个 键 值 对 的 序列 ， 序 列 中 的 每 个 元 素 都 有 一 个 键 值 ( 石 ， 
ky, +, ka), kK X08] N— 1 的 整数 (其 中 NEE2)。 我 们 可 以 使 用 基数 排序 在 时 间 复 杂 度 
O(d + N) 下 得 到 字典 序 排列 。 

基数 排序 可 以 应 用 于 任何 键 都 可 以 被 看 作 以 字典 序 排序 得 到 的 小 规模 排序 的 情形 。 例 
如 ， 我 们 可 以 将 其 应 用 于 对 长 度 适 中 的 字符 串 进行 排序 ， 要 求 字 符 串 中 每 个 单独 的 字符 可 以 
表示 为 一 个 整数 值 。( 一 些 不 同 长 度 的 字符 串 需要 进行 适当 处 理 。) 


12.5 排序 算法 的 比较 
在 这 一 节 ， 花 一 点 时 间 去 思考 本 书 中 学 习 的 所 有 对 n 元 素 序列 进行 排序 的 算法 会 有 助 于 
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我 们 更 好 地 理解 这 些 内 容 。 

考虑 运行 时 间 和 其 他 因素 

我 们 已 经 学 习 了 几 种 方法 ， 如 插入 排序 和 选择 排序 ， 这 两 种 算法 在 平均 和 最 坏 情 况 下 
具有 O(n’) 的 时 间 复 杂 度 。 我 们 还 研究 了 几 种 时 间 复 杂 度 为 O(n log n) 的 方法 ,包括 堆 排 序 、 
归并 排序 和 快速 排序 。 最 后 ， 桶 排序 和 基数 排序 方法 在 某 些 类 型 键 值 下 能 在 线性 时 间 内 运 
行 。 当 然 ， 选 择 排序 算法 在 任何 应 用 程序 中 都 是 一 个 糟糕 的 选择 ， 因 为 它 即使 在 最 好 的 情况 
下 运行 也 需要 O(n’) 的 时 间 。 但 是 ， 对 于 其 余 的 排序 算法 ， 哪 个 是 最 好 的 呢 ? 

很 多 时 候 ， 我 们 也 无 法 从 其 余 的 候选 中 明确 “最 好 ”的 排序 算法 。 这 涉及 效率 、 内 存 使 
用 和 稳定 性 的 权衡 。 最 适合 某 特定 应 用 程序 的 排序 算法 取决 于 该 应 用 程序 的 属性 。 事 实 上 ， 
计算 语言 和 系统 使 用 的 默认 排序 算法 随 着 时 间 的 推移 已 经 发 生 了 很 大 的 变化 。 所 以 ， 基 于 一 
些 “ 好 ” 序 算法 的 已 知 属性 ， 我 们 可 以 提供 一 些 指导 和 意见 。 

插入 排序 

如 果 情 况 好 的 话 ， 插 入 排序 的 运行 时 间 是 O(n + m)， 其 中 m 是 逆序 的 数量 ( 即 无 序 元 素 
对 数目 )。 因 此 ,插入 排序 是 一 种 进行 小 序列 排序 的 优秀 算法 (比如 ， 少 于 50 个 元 素 )， 因 
为 插入 排序 是 很 简单 的 程序 ， 而 且 小 序列 最 多 只 有 几 个 逆序 。 此 外 ,插入 排序 对 “几乎 ”已 
经 排序 好 的 序列 是 很 有 效 的 。“ 几 乎 ”是 指 逆序 的 数目 很 小 。 但 是 插入 排序 O(n’) 的 时 间 性 
能 使 它 在 这 些 特 定 情 况 之 外 成 为 一 种 糟糕 的 选择 。 

堆 排序 

男 一 方面 ， 堆 排序 在 最 坏 的 情况 下 运行 时 间 是 为 O(n log n)， 对 于 基于 比较 的 排序 方法 
是 最 佳 的 选择 。 当 输入 的 数据 可 以 适应 主 存 时 ， 堆 排序 很 容易 就 地 执行 ， 并 且 在 小 或 中 型 的 
序列 上 是 一 个 理所当然 的 选择 。 然 而 ， 堆 排序 在 更 大 的 序列 上 往往 优 于 快速 排序 和 归并 排 
序 。 标 准 的 堆 排序 由 于 元 素 的 交换 ， 并 不 能 提供 稳定 排序 。 

快速 排序 

快速 排序 在 最 坏 情 况 下 的 时 间 复 杂 度 为 00 为 ， 虽 然 在 一 些 必 须 保 证 按时 完成 排序 操作 
的 实时 应 用 中 它 是 可 以 接受 的 ， 但 是 我 们 仍然 期 竺 它 的 时 间 复 杂 度 达到 O(n log n). FALSE 
验 研 究 表明 ， 在 许多 测试 中 它 优 于 堆 排 序 和 归并 排序 。 由 于 分 块 步骤 中 存在 元 素 交 换 ， 所 以 
快速 排序 自然 不 能 提供 稳定 的 排序 。 

几 十 年 来 ,快速 排序 是 一 种 通用 的 内 存 排序 算法 的 默认 选择 。 快 速 排序 被 包含 在 C 语 
言 库 中 提供 的 qsort 排序 实用 程序 中 ， 并 且 是 多 年 来 在 Unix 操作 系统 上 的 排序 实用 程序 的 基 
础 。 这 也 是 Java 中 语言 版 本 6 以 后 的 数组 排序 的 标准 算法 。( 我 们 下 面 讨论 Java7。) 

归并 排序 

归并 排序 最 坏 情况 下 的 运行 时 间 为 O(n log nm)。 做 到 数组 的 合并 排序 的 就 地 操作 很 难 ， 并 
且 对 于 分 配 临 时 数组 的 额外 开销 无 法 实现 最 优化 ， 而 且 在 数组 之 间 复 制 相 比 堆 排序 的 就 地 实 
现 和 可 以 在 计算 机 主 存 中 完全 适合 的 对 序列 的 快速 排序 而 言 没 有 优势 。 即 便 如 此 ， 对 于 输入 
在 计算 机 的 各 级 存储 器 层次 结构 (例如 ， 高 速 缓存 、 主 存储 器 、 外 部 存储 器 ) 之 间 被 分 层 的 情 
况 ， 归 并 排序 仍然 是 一 个 优秀 的 算法 。 在 这 些 语 境 下 ， 归 并 排序 在 很 长 的 合并 流 中 处 理 数 据 
的 方法 ,最 好 地 利用 了 在 各 级 存储 器 中 以 块 存储 的 所 有 数据 ， 因 而 减少 了 内 存 交 换 的 总 数 。 

GNU 排序 实用 程序 ( Linux 操作 系统 中 的 最 新 版 本 ) 依赖 于 对 多 路 归并 排序 的 修改 。 自 
2003 年 以 来 ，Python 的 list 类 的 标准 sort 方法 已 经 成 为 一 种 名 为 Tim-sort (由 Tim Peters iz 
th) 的 混合 方法 。 它 本 质 上 是 一 种 自 下 而 上 的 归并 排序 ， 利 用 一 些 数 据 的 初始 运行 ， 之 后 进 


HPA 369 


行 额 外 的 插入 排序 。Tim-sort 也 成 为 Java7 中 数组 排序 的 默认 算法 。 

桶 排序 和 基数 排序 

最 后 ， 如 果 一 个 应 用 程序 用 小 的 整 型 键 、 字 符 串 或 者 来 自 离散 范围 的 g 元 组 键 对 条 目 进行 
排序 ， 那 么 桶 排序 和 基数 排序 是 很 好 的 选择 ， 因 为 它 的 运行 时 间 为 O(dn* N), 其中, [0,N-11 
是 整 型 键 的 范围 (对 于 桶 排序 来 说 ，d = 1 )。 因 此 ， 如 果 da + N FASE “IRF” n log n 的 函数 ， 
那么 这 个 分 类 方法 要 比 快速 排序 、 堆 排序 、 归 并 排序 更 快 。 


12.6 Python 的 内 置 排序 函数 


Python 提供 了 两 个 内 置 的 方式 来 给 数据 排序 。 首 先是 list 类 的 sort 方法 。 举 个 例子 ， 假 

设 我 们 定义 以 下 列表 : 
colors = ['red', 'green', 'blue', 'cyan', 'magenta', 'yellow'] 

该 方法 给 列表 中 的 元 素 进行 排序 ， 这 些 元 素 按 小 于 号 < 的 自然 定义 确定 顺序 。 上 述 例子 中 ， 

元 素 为 字符 串 ， 那 么 自然 顺序 就 是 按照 字母 表 的 顺序 。 那 么 调用 colors.sort0， 列 表 顺 序 变 为 
['blue', 'cyan', 'green', 'magenta', 'red', 'yellow'] 

Python 还 支持 一 个 叫 作 sorted f] P3 PAA, FT HT P7 ^E — ar 15) 6, 8 1E 8E RUE PGR 
容器 中 元 素 的 有 序 表 。 回 到 我 们 最 初 的 例子 ， 语 法 sorted (colors) 将 返回 一 个 新 的 按 字母 顺 
序 排 列 的 colors 列表 ， 而 留 下 的 原始 清单 的 内 容 不 变 。 第 二 种 更 为 普遍 ， 因 为 它 可 以 应 用 于 
任何 可 和 迭代 对 象 作 为 参数 的 情况 ， 例 如 ，sorted('green) 返回 ['e', 'e', 'g', 'n', 'r']. 


键 函数 排序 


在 有 很 多 情况 下 ， 我 们 希望 对 元 素 进行 不 同 于 < 操作 符 定义 的 自然 顺序 的 排序 。 例 如 ,我 
们 可 能 希望 从 短 到 长 地 排序 字符 串 列表 (而 不 是 按 字 母 顺序 排列 )。 两 种 Python 的 内 置 排序 函数 
都 允许 调用 者 控制 排序 时 使 用 的 顺序 的 定义 。 这 可 以 通过 提供 一 个 可 选 的 关键 字 参 数 而 实现 ， 该 
参数 是 一 个 二 次 函数 的 引用 ， 二 次 函数 可 以 为 原始 队列 的 每 个 元 素 计算 一 个 键 ， 之 后 原始 元 素 基 
于 它们 的 键 值 的 自然 顺序 进行 排序 。( 详 情 请 看 1.5.1 节 关 于 内 置 的 min 和 max 函数 的 技术 讨论 。) 

键 函 数 必须 是 单 参数 函数 ， 它 接受 一 个 元 素 作 为 参数 并 且 返 回 一 个 键 。 例 如 ， 我 们 在 按 
字符 串 长 度 排序 时 可 以 使 用 内 置 的 函数 len， 比 如 对 字符 串 s 调用 len(s) 返回 其 长 度 。 为 了 
对 数组 colors 按照 字符 串 长 度 进行 排序 ， 我 们 用 句法 colors.sort(key = len) 改变 列表 ， 或 者 
使 用 sorted(colors, key = len) 来 生成 一 个 新 的 有 序数 组 ， 舍 弃 原 始 数 组 。 当 以 字符 串 长 度 作 
为 键 进行 排序 时 ， 内 容 变 成 

['red', 'blue', 'cyan', 'green', 'yellow', 'magenta'] 

这 些 内 置 函数 还 支持 关键 字 参 数 reverse， 它 可 以 设置 为 Tue， 使 得 排序 顺序 是 从 最 大 到 最 小 。 

装饰 - 排序 - 取消 设计 模式 

使 用 装饰 -排序 -取消 设计 模式 实现 排序 
Hf, Python 支持 键 函 数 。 它 按照 下 面 三 个 步骤 
执行 : 

1) 列表 中 的 每 个 元 素 暂 时 地 被 包含 应 用 
于 元 素 的 键 函数 的 结果 的 “装饰 ”版 本 所 替代 。 

2) 列表 必须 按照 键 的 自然 顺序 进行 排序 图 12-16 一 个 使 用 长 度 作 为 装饰 的 “装饰 ” 字 
(图 12-16 )。 符 串 列表 。 列 表 按 照 这 些 键 进 行 排序 
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3 ) 装饰 的 元 素 被 原始 的 元 素 替 换 。 

虽然 Python 中 已 经 支持 这 种 算法 ， 但 是 如 果 我 们 要 自己 实现 这 种 算法 的 话 ， 表 示 “ 装 
饰 ” 元 素 最 自然 的 方法 就 是 利用 与 用 优先 队列 表示 键 - 值 对 一 样 的 策略 。 在 代码 段 9-1 中 包 
含 了 这 样 一 个 Item 类 ， 以 便条 目的 < 运算 符 依 赖 于 给 定 的 键 。 有 这 样 一 个 组 合 ， 我 们 可 以 
对 任何 排序 算法 使 用 装饰 - 排序 - 取消 设计 模式 ， 如 代码 段 12-8 的 归并 排序 所 示 。 


代码 段 12-8 基于 数组 的 归并 排序 的 装饰 - 排序 - 取消 设计 模式 实现 方法 。_ltem 
类 和 PriorityQueueBase 类 中 使 用 的 相同 ( 见 代码 段 9-1 ) 


| def decorated_merge_sort(data, key=None): 

2  """Demonstration of the decorate-sort-undecorate pattern." " " 

3 if key is not None: 

4 for j in range(len(data)): 

5 data[j] = .Item(key(data[j]), data[j]) # decorate each element 

6  merge.sort(data) # sort with existing algorithm 
7 if key is not None: 

8 for j in range(len(data)): 

9 data[j] = data[j]..value # undecorate each element 


12.7 选择 


重要 的 是 ， 对 元 素 集合 所 要 处 理 的 各 种 顺序 关系 来 说 ， 排 序 不 是 唯一 有 趣 的 问题 。 对 
于 大 量 的 应 用 ， 相 对 于 整个 集合 的 排序 顺序 ， 我 们 对 根据 元 素 的 级 别 来 识别 单个 元 素 更 感 兴 
趣 。 比 如 确定 最 小 和 最 大 元 素 ， 但 是 我 们 对 确定 中 位 数 更 感 兴趣 ， 即 除了 中 位 数 之 外 的 一 半 
元 素 比 它 小 ， 剩 下 的 一 半 元 素 比 它 大 。 一 般 情 况 下 ， 从 一 个 有 序 的 列表 中 查找 指定 等 级 元 素 
的 查询 称 为 顺序 统计 量 。 

定义 选择 问题 

在 这 一 部 分 ， 我 们 讨论 一 般 的 顺序 统计 量 问题 ， 即 从 未 排序 的 个 可 比较 元 素 中 选择 第 
k 个 最 小 的 元 素 。 这 被 称 为 选择 问题 。 当 然 ， 我们 可 以 通过 对 集合 进行 排序 然后 在 已 排序 序 
列 的 索引 为 上 =- 1 的 地 方 插入 索引 来 解决 这 个 问题 。 我 们 可 以 使 用 最 好 的 比较 排序 算法 ， 它 
的 时 间 复 杂 度 是 O(n logn), xXx AAA ET k=1 3 k=AR# k-2,k-3,k-n-l,k-n-5) 
的 情况 ， 因 为 我 们 可 以 在 O(n) 内 为 上 述 索 引 k 的 这 些 值 解决 选择 问题 。 因 此 ， 一 个 自然 的 
问题 是 我 们 是 否 可 以 在 运行 时 间 O(n) 以 内 解决 的 所 有 值 的 选择 问题 (包括 当 k= | n/2」 时 
寻找 中 位 数 的 情况 )。 


12.7.1 剪 枝 搜索 


我 们 确实 可 以 在 O(n) 以 内 为 所 有 大 值 解决 选择 问题 。 此 外 ， 我 们 用 来 实现 该 结果 的 技 
术 包含 了 一 个 有 趣 的 算法 设计 模式 。 这 种 设计 模式 称 为 剪 枝 搜 索 或 减 治 。 应 用 这 种 设计 模 
式 ， 我 们 通过 修剪 n 个 对 象 的 一 小 部 分 然后 递归 地 解决 更 小 的 问题 来 解决 定义 在 n 个 对 象 上 
的 已 知 问题 。 当 最 终 减 小 为 一 个 定义 在 常数 大 小 对 象 集合 上 的 问题 时 ， 我 们 使 用 一 些 蛮 力 方 
法 来 解决 出 现 的 问题 。 然 后 从 所 有 的 递归 调用 递 推 回来 得 到 结果 。 在 一 些 情况 下 ， 我 们 可 以 
避免 使 用 递归 ， 这 种 情况 下 我 们 只 是 简单 地 重复 剪 枝 搜索 还 原 步骤 ， 直 到 可 以 使 用 蛮 力 方法 ， 
然后 停止 执行 。 顺 便 说 一 句 ， 在 4.1.3 节 描 述 的 二 分 搜索 方法 是 前 枝 搜 索 设计 模式 的 一 个 
示例 。 
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12.7.2 ”随机 快速 选择 


在 对 n 个 元 素 的 未 排序 序列 应 用 剪 枝 搜索 模式 去 寻找 第 个 最 小 的 元 素 时 ， 我们 用 到 一 
种 简单 实用 的 算法 ， 称 为 随机 快速 选择 。 考 虑 到 所 有 由 该 算法 生成 的 可 能 的 随机 选择 ， 该 算 
法 预期 的 时 间 复 杂 度 是 O(n)， 这 种 期 望 不 依赖 于 任何 输入 分 配 的 随机 性 假设 。 注 意 到 随机 
快速 选择 在 最 坏 情况 下 的 时 间 复 杂 度 是 O), HERRERA R-12.24。 我 们 还 提供 了 练习 
C-12.55， 通 过 修改 随机 快速 选择 算法 以 定义 确定 性 的 选择 算法 ， 使 得 在 最 坏 情况 下 的 时 间 
复杂 度 是 O(n)。 然 而 ， 这 种 确定 性 算法 只 在 理论 上 存在 ， 因 为 大 O 表示 法 的 隐藏 常数 因子 
在 该 情况 下 相对 来 说 非常 大 。 

假设 我 们 已 知 一 个 有 nn 个 可 比较 元 素 并 且 整 数 k € [1, n] 的 序列 S$。 某 种 意义 上 , ES 
中 搜寻 第 小 的 元 素 的 快速 选择 算法 和 12.3.1 节 中 描述 的 随机 快速 选择 算法 类 似 。 我 们 从 5 
中 随机 地 选择 一 个 “基准 值 ”元 素 ， 然 后 使 用 此 基准 值 将 S 细 分 成 三 个 子 序列 L、E 和 6G,， 
分 别 存储 $ 中 比 基 准 值 小 的 元 素 、 等 于 基准 值 的 元 素 和 大 于 基准 值 的 元 素 。 在 修剪 步骤 中 ， 
我 们 基于 大 的 值 和 那些 子 集 的 大 小 来 确定 这 些 子 集 包 含 的 元 素 。 我 们 又 在 合适 的 子 集 上 重复 
上 述 步 又， 注意 子 集中 元 素 的 等 级 可 能 和 整个 集合 中 该 元 素 的 等 级 不 同 。 随 机 快速 选择 算法 
的 实现 如 代码 段 12-9 所 示 。 


代码 段 12-9 ”随机 快速 选择 算法 
| def quick_select(S, k): 


2  """Return the kth smallest element of list S, for k from 1 to len(S).""" 
if len(S) == 1: 

d return S[0] 

5 pivot — random.choice(S) # pick random pivot element from S 

6  L-[xforx in S if x < pivot] # elements less than pivot 

7 E= |x for x in S if x == pivot] # elements equal to pivot 

8 G = [x for x in S if pivot < x] # elements greater than pivot 

9 ifk <= len(L): 

10 return quick_select(L, k) # kth smallest lies in L 

|] elif k <= len(L) + len(E): 

12 return pivot # kth smallest equal to pivot 

13 else: 

14 j = k — len(L) — len(E) # new selection parameter 

15 return quick_select(G, j) # kth smallest is jth in G 


12.7.3 ”随机 快速 选择 分 析 


运行 时 间 为 O(n) 的 随机 快速 选择 需要 一 个 简单 的 概率 参数 。 该 参数 基于 期 望 的 线性 ， 

这 里 规定 ， 如 果 半 和 了 是 随机 变量 ,，c 是 一 个 数字 ， 那 么 
E(X* Y)- E(X) - EY) EH. E(cX)=cE(X) 

这 里 我 们 用 EE (Z) 定义 Z 的 期 望 。 

假设 t(n) 是 大 小 为 n 的 序列 的 随机 快速 选择 的 运行 时 间 。 由 于 该 算法 取决 于 随机 事件 ， 
其 运行 时 间 (n) 是 一 个 随机 变量 。 我 们 想 要 界定 (n) 的 期 望 E(t (n))。 如 果 算 法 将 S 进行 分 
区 使 得 每 个 工 和 G 的 大 小 至 多 为 3w4， 则 该 算法 的 递归 调用 是 “好 ”的 。 显 然 ， 一 个 好 的 
递归 调用 的 可 能 性 至 少 是 1/2。 假 设 g(n) 表示 在 我 们 得 到 一 个 好 的 递归 调用 之 前 递归 调用 的 
次 数 ， 包 括 前 一 个 递归 调用 。 那 么 我 们 可 以 使 用 下 面 的 递 推 方程 表示 (n): 

t(n) < bn + g(n) + t(3n/4) 


其 中 4b 是 一 个 大 于 等 于 1 的 常数 。 对 于 n> 1 应 用 期 望 的 线性 ， 我 们 得 到 : 

E(t(n)) < E(bn + g(n) + t(3n/4)) = bn + E(g(n)) + E(t(3n/4)) 
由 于 一 个 递归 调用 是 好 的 概率 至 少 是 12， 并 且 一 个 递归 调用 是 好 或 者 不 好 是 独立 于 它 的 
父 调用 的 ，g(n) 的 期 望 值 至 多 是 我 们 扔 一 枚 硬币 时 在 它 出 现 正 面 朝 上 之 前 的 次 数 。 就 是 说 ， 
E(g(n) 入 2。 因 此， 如 果 我 们 让 T(n) 表示 E(t(n)) WHS, 那么 对 于 n>1， 有 

T(n) < T(3n/4)  2bn 
为 了 将 这 种 关系 转换 为 一 个 封闭 形式 ,假设 很 大 ,我 们 以 迭代 方式 应 用 该 不 等 式 。 所 以 ， 
在 应 用 两 次 迭代 之 后 ， 
T(n) < T((3/4yn) + 2b(3/4)n + 2bn 
在 这 一 点 上 ， 我 们 应 该 看 到 ， 一 般 情况 下 是 
logy n] 


n 
T(n)<2bn M, (3/4) 


i=0 
换 句 话说 ， 预 计 运行 时 间 至 多 是 基数 小 于 1 的 正 数 的 几何 和 的 2bn fo AE, mái 3-5, 
T(n) 是 O(n). 
命题 12-7 : 大 小 为 n 的 序列 5 的 随机 快速 选择 的 预期 运行 时 间 是 Oln), 假设 5S 的 两 个 
元 素 可 以 在 O) 时 间 内 进行 比较 。 


12.8 练习 

请 访问 www.wiley.com/college/goodrich 以 获得 练习 帮助 。 

巩固 

R-12.1 给 出 命题 12-1 的 完整 证 明 。 

R-12.2 在 图 12-2 一 图 12-4 中 的 归并 排序 树 中 ， 一些 边 被 画 成 了 箭头 。 那 些 向 下 的 箭头 是 什么 意思 ? 
向 上 的 箭头 又 是 什么 意思 ? 

R-12.3 ”说 明 为 何 归 并 排序 算法 在 一 个 元 素 序 列 上 的 运行 时 间 为 O(n log n), Bilin AE 2 的 宕 的 
时 候 。 

R-12.4 我 们 于 12.22 节 中 给 出 的 基于 数组 的 归并 排序 算法 实现 是 否 是 稳定 的 ?请 解释 为 什么 是 或 者 
为 什么 不 是 。 

R-12.5 我们 在 代码 段 12-3 中 给 出 的 基于 链表 的 归并 排序 算法 实现 是 否 是 稳定 的 ? 请 解释 为 什么 是 或 
者 为 什么 不 是 。 

R-12.6 一 个 通过 键 来 排序 键 值 条 目的 算法 被 称 为 是 离散 的 ， 如 果 任 何 时 候 ， 两 个 条 目 e M e AAH 
SiH, (ERMA, e 出 现在 ej 之 前 ， 然 后 在 输出 中 ， 该 算法 将 e WE e; 之 后 。 描 述 一 种 
方法 使 得 12.2 节 提 到 的 归并 排序 算法 变 得 离散 。 

R-12.7 假设 我 们 有 2 个 已 排序 的 n 元 素 序列 4 和 B， 并 且 序 列 中 的 每 个 元 素 均 不 相同 ,但 其 中 可 能 
有 一 些 元 素 同 时 存在 于 两 个 序列 中 。 描 述 用 于 计算 将 4 和 B 的 并 集 4 U B. (没有 重复 元 素 ) 
表示 为 一 个 已 排序 序列 的 运行 时 间 为 O(n) 的 方法 。 

R-12.8 ”假设 我 们 修改 了 已 经 确定 的 快速 排序 版 本 ， 以 便 选 择 处 于 | n/2 | 的 元 素 (替代 选择 最 后 一 个 元 
素 作 为 基准 值 的 方法 )。 这 种 版 本 的 快速 排序 在 一 个 已 排序 序列 上 的 运行 时 间 是 什么 ? 

R-12.9 考虑 对 目前 确定 的 选择 处 于 Ln/2 | 位 置 的 元 素 作为 基准 值 的 快速 排序 算法 的 版 本 进行 改动 。 描 
述 能 使 这 个 版 本 的 快速 排序 运行 时 间 为 Q7) 的 序列 种 类 。 

R-12.10 ”说 明 对 于 长 度 为 n 且 元 素 互 不 相同 的 序列 ， 对 其 快速 排序 的 最 佳 运行 时 间 在 Q (nlogn) 之 内 的 原因 。 


R-12.11 


R-12.12 


R-12.13 


R-12.14 


R-12.15 


R-12.16 


R-12.17 
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R-12.20 


R-12.21 
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R-12.23 
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创新 
C-12.25 


C-12.26 
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假设 函数 inplace_quick sort 在 有 重复 元 素 的 序列 上 执行 。 证 明 这 个 算法 仍然 可 以 正确 地 对 
输入 序列 进行 排序 。 在 划分 阶段 ， 当 有 元 素 和 基准 值 相 同时 ， 会 发 生 什么 ?如 果 全 部 的 元 素 
均 相 等 ， 那 么 该 算法 的 运行 时 间 如 何 ? 

AD PR inplace quick sort 的 最 外 层 while 循环 (代码 段 12-6 的 第 7 行 ) 的 条 件 变 为 left < 
right (MAE left < right)， 将 会 出 现 一 些 甫 症 。 解 释 造成 这 种 瑕 疫 的 原因 并 给 出 一 个 会 使 其 执 
行 失 败 的 特定 输入 序列 。 

如 果 代 码 段 12-6 中 的 函数 inplace quick sort 在 其 第 14 行 的 条 件 变 为 left < right (而 非 
left < right)， 将 会 出 现 一 些 瑕 症 。 解 释 造成 这 种 瑕 疲 的 原因 并 给 出 一 个 会 使 其 执行 失败 的 特 
定 输入 序列 。 

接着 我 们 在 12.3.1 节 中 关于 随机 化 快速 排序 的 分 析 ， 请 说 明 一 个 给 定 的 输入 元 素 x 在 尺寸 组 
i 中 属于 超过 2log n 子 问题 的 可 能 性 至 多 是 Vm. 

对 于 有 nl! 种 可 能 的 基于 比较 的 排序 算法 的 输入 来 说 ,在 只 进行 n 次 比较 的 情况 下 能 够 实现 
正确 排序 所 要 求 的 输入 的 绝对 上 限 是 多 少 ? 

Jonathan 有 一 个 基于 比较 的 排序 算法 可 以 在 O(n) 的 时 间 内 对 一 个 大 小 为 n 的 序列 的 前 个 元 
素 进行 排序 。 请 给 出 一 个 当 k 达 到 最 大 时 的 大 0 表达 。 

桶 排序 是 否 是 就 地 的 ? 请 给 出 原因 。 

描述 一 个 基数 排序 ， 以 字典 序 排序 三 元 组 (k, L m) 序列 S。 其 中 的 1,m 均 为 整数 且 属 于 [0,N- 1] 
(N z 2)。 如 何 使 该 组 合 可 以 延伸 至 4 元 组 (ki, ko, t, ka), HEF E dé—TE[0, N-1] 中 的 整数 。 
假设 5 是 一 个 由 个 值 为 0 或 1 的 元 素 组 成 的 序列 ， 使 用 归并 排序 算法 对 其 排序 将 花费 多 少 
时 间 ? 快速 排序 呢 ? 

假设 5 是 一 个 由 个 值 为 0 或 1 的 元 素 组 成 的 序列 ， 使 用 桶 排序 算法 对 其 进行 稳定 排序 将 花 
费 多 少时 间 ? 

已 知 一 个 由 n 个 值 为 0 或 1 的 元 素 组 成 的 序列 S， 请 描述 一 个 算法 对 S 进行 就 地 排序 。 

给 出 一 个 示例 输入 列表 ， 归 并 排序 和 堆 排 序 需要 消耗 O(n log n) 的 时 间 进 行 排序 ， 但 插入 排 
序 却 只 需要 O(n) 的 时 间 。 如 果 将 该 列表 翻转 ， 情 况 如 何 ? 

对 以 下 情况 来 说 ， 最 好 的 排序 算法 是 什么 ? 证 明 你 的 答案 。 

e 一 般 的 可 比较 对 象 

e 长 字符 串 

e 32 位 整 型 

e 双 精 度 浮 点 型 数 

e 字 节 型 数 

说 明 为 何 对 n 元 素 序列 进行 快速 选择 在 最 坏 情 况 下 运行 时 间 是 Qn”). 


Linda 要 求 有 一 个 算法 能 接收 一 个 输入 序列 S 并 生成 一 个 输出 序列 T, T 是 n 元 素 序列 S$ 的 已 
排序 结果 。 

a) 给 出 一 个 算法 is_sorted， 在 O(n) 的 时 间 内 测试 了 是 否 是 有 序 的 。 

b) 解释 为 何 该 算法 不 足以 证 明 一 个 特定 的 输出 了 在 Linda 的 算法 中 是 由 5S 经 排序 而 得 出 的 。 
c) 描述 Linda 的 算法 可 以 输出 何 种 额外 信息 ， 以 使 得 其 算法 的 正确 性 可 以 建立 在 O(n) 时 间 
AERA eM SATE. 

描述 并 分 析 一 个 用 来 移 除 n 元 素 集合 A 中 所 有 重复 项 的 有 效 方法 。 
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扩展 PersonalList 类 ( 详 见 7.4 节 )， 使 其 支持 包含 以 下 行为 的 merge 方 法 。 如 果 A 和 B 是 
PersonalList 类 的 实例 ， 且 其 元 素 已 被 排序 ， 语 法 A.merge(B) 会 将 B 中 所 有 元 素 合 并 至 A 中 
使 得 A 保持 有 序 ，B 被 清空 。 你 的 方法 必须 通过 再 次 连接 所 有 已 存在 的 节点 来 完成 归并 ， 但 
不 能 创建 新 的 节点 。 
扩展 PersonalList 类 ( 详 见 7.4 节 )， 使 其 支持 通过 重 连 接 已 存在 节点 对 列表 元 素 进行 排序 的 
sort 方 法。 你 不 能 创建 新 的 节点 。 你 可 以 使 用 自己 选择 的 排序 算法 。 
通过 将 每 个 元 素 放 在 各 自 的 队列 来 对 该 元 素 集 实现 一 个 自 底 向 上 的 归并 排序 ， 然 后 重复 地 合 
并 队列 组 直到 所 有 元 素 在 一 个 队列 中 被 排序 。 
修改 代码 段 12-6 中 的 就 地 快速 排序 的 实现 方法 ， 使 其 成 为 该 算法 的 随机 化 版 本 ， 即 我 们 在 
12.3.1 节 中 讨论 的 。 
考虑 一 个 确定 的 快速 排序 的 版 本 ,我 们 把 元 素 的 输入 队列 中 最 后 4 个 元 素 的 中 值 作 为 基准 
值 ，4 是 固定 的 奇数 且 d 2 3。 在 这 种 情况 下 渐 近 的 最 坏 情况 下 的 运行 时 间 是 多 少 ? 
另 一 种 分 析 随 机 化 快速 排序 的 方法 是 使 用 递归 方程 式 。 这 种 情况 下 ， 我 们 用 Tn) 表示 随机 化 
快速 排序 的 期 望 运行 时 间 ， 然 后 观察 该 运行 时 间 ， 因 为 其 在 最 坏 情况 下 对 好 的 和 坏 的 部 分 进 
行 划分 ， 我 们 可 以 写 出 

r(n)e ^ (r(n/4)«T(n14)) e (T(n-1) +n 
其 中 bn 是 通过 给 定 的 基准 值 分 割 列 表 并 且 在 递归 结束 后 返回 的 连接 结果 子 列表 所 需 的 时 间 。 
通过 归纳 法 说 明 T(n) 是 O(n log n). 
我 们 关于 快速 排序 的 高 阶 描述 将 元 素 划 分 成 三 个 集 L、E 和 G， 分别 存 放 小 于 、 等 于 和 大 于 
基准 值 的 关键 值 。 然 而 ， 我 们 在 代码 段 12-6 中 实现 的 就 地 快速 排序 不 把 所 有 等 于 基准 值 的 
元 素 收 集 在 集合 已 中 。 对 于 就 地 三 分 割 的 这 种 方法 ， 一 个 可 供 选择 的 策略 如 下 。 从 左 到 右 
循环 通过 所 有 元 素 以 维持 其 检索 i、j 和 k， 同 时 ， 所 有 S[0:i] 中 的 元 素 都 严格 地 小 于 基准 值 ， 
所 有 Spy] 中 的 元 素 都 等 于 基准 值 ， 所 有 SU] 中 的 元 素 都 严格 地 大 于 基准 值 ，STk:n] 中 的 元 
素 均 尚未 归 类 。 每 次 通过 循环 ， 将 归 类 一 个 额外 的 元 素 ， 执 行 一 个 常数 次 的 交换 。 请 使 用 这 
种 策略 来 实现 一 个 就 地 快速 排序 。 
假设 我 们 有 一 个 n 元 素 的 序列 S 使 得 每 个 S 中 的 元 素 都 表示 一 位 不 同 的 总 统 候 选 人 所 获得 的 
选票 ， 每 个 选票 作为 一 个 整数 ， 代 表 一 个 特定 的 候选 人 ,但 这 些 整数 可 能 是 任意 大 的 (即使 
不 是 候选 人 的 数量 )。 设 计 一 个 具有 O(n log n) 时 间 复 杂 度 的 算法 来 显示 谁 将 赢得 这 场 8 位 代 
表 参 与 的 选举 ,假定 得 票 最 多 的 候选 人 获胜 。 
考虑 练习 C-12.34 中 的 选举 问题 ， 但 现在 假设 我 们 知道 候选 人 的 数量 上 < n， 即 使 这 些 整 数 
ID 会 尽 可 能 大 。 请 描述 一 个 具有 时 间 复 杂 度 O(n log 月 的 算法 来 决定 谁 将 赢得 这 次 选举 。 
考虑 练习 C-12.34 中 的 选举 问题 ， 但 现在 假设 我 们 用 整数 1 E k KERE k< n 位 候选 人 。 请 设 
计 一 个 具有 时 间 复 杂 度 O(n) 的 算法 来 决定 谁 将 赢得 这 次 选举 。 
说 明 任 意 的 基于 比较 的 排序 算法 都 可 以 在 不 影响 其 渐 近 运行 时 间 的 前 提 下 被 做 成 稳定 的 
算法 。 
假设 我 们 有 两 个 存在 全 序 关系 定义 的 元素 序 列 4 和 B， 其 中 可 能 有 重复 的 元 素 。 描 述 一 个 
有 效率 的 算法 来 决定 4 和 8B 是 否 包含 相同 的 元 素 集 合 。 这 个 方法 的 运行 时 间 是 多 少 ? 
一 个 n 整 型 元 素数 组 A 的 范围 为 [0, nm? 一 1 ]， 描 述 一 个 简单 的 方法 使 得 对 4 的 排序 的 运行 时 
间 为 O(n)。 
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4 S,S, …, St 为 k 个 不 同 的 序列 ， 其 元 素 含有 整 型 关键 值 ， 范 围 是 [0, N -1]， 参数 
N 三 2。 描 述 一 个 算法 使 其 可 以 在 O(n + N) 的 时 间 内 生成 个 各 自己 排 好 序 的 序列 ，n 表示 
这 些 序列 的 尺寸 总 和 。 

给 定 一 个 具有 全 序 关系 的 n 元 素 序列 ， 描 述 一 个 有 效率 的 方法 来 决定 5 中 是 否 存 在 两 个 相等 
的 元 素 。 你 的 方法 的 运行 时 间 是 多 少 ? 

定义 5 为 一 个 有 全 序 关 系 的 元素 序列 。 回 想 发 生 在 序列 S$ 中 的 倒置 是 发 生 在 一 对 元 素 x 和 
yy 上 的 ,使 得 在 §S 中 x 先 于 y 出现 , 但 x > y。 描 述 一 个 运行 时 间 在 O(n log n) 以 内 的 算法 来 
决定 5 中 的 倒置 数量 。 

定义 一 个 n 元素 整 型 序列 S$。 描 述 一 个 方法 用 以 在 O(n + k) 的 时 间 内 打印 8 中 所 有 的 倒置 对 ， 
是 这 些 倒置 对 的 数量 。 

S$ 是 n 个 互相 独立 的 整数 的 随机 置换 。 证 明 对 5 进行 插入 排序 的 运行 时 间 是 Oo). (Rm: 
注意 ， 已 按 序 排 好 的 一 半 元 素 最 好 放 在 S 的 前 半 部 分 。) 

定义 4 和 B 是 两 个 元 素 整 型 序列 。 给 定 一 个 整数 m， 请 描述 一 个 时 间 复 杂 度 为 O(n log n) 
的 算法 来 决定 是 否 在 A 中 有 一 个 整数 a HB 中 有 一 个 整数 bp, 使 得 m= arb. 

给 定 一 个 n 整数 集合 ， 描 述 并 分 析 一 个 最 快 的 方法 来 找 出 最 接近 中 值 的 [log n | 整数。 

Bob 有 nn 个 螺母 ， 称 为 集合 4， 还 有 对 应 的 n 个 螺钉 ， 称 为 集合 B，4 中 的 每 个 螺母 仅 能 
唯一 对 应 中 中 的 一 个 螺钉 。 不 幸 的 是 , 4 中 的 螺母 全 部 长 得 很 像 ，B 中 的 螺钉 也 长 得 很 像 。 
Bob 唯一 能 进行 比较 的 是 配 成 (a，b) 这 样 的 对 ,使 得 a 在 4 中 且 45 在 B 中 ,并 且 测 试 a 是 大 
了 、 小 了 还 是 刚好 匹配 5。 描 述 并 分 析 一 个 有 效率 的 算法 来 让 Bob 匹配 所 有 的 螺母 和 螺钉 。 
我 们 关于 快速 选择 的 实现 可 以 通过 首先 计算 集合 KL、E 和 G 的 count 数 以 使 算法 更 加 有 空间 
效率 ， 同 时 仅 需 要 创建 新 的 将 用 于 递归 的 子 集合 。 请 实现 这 种 版 本 的 算法 。 

用 伪 代 码 描 述 一 个 就 地 快速 选择 算法 ,假设 允许 改变 元 素 的 顺序 。 

说 明 如 何 用 一 个 确定 的 、 时 间 复 杂 度 为 O(n) 的 选择 算法 在 最 坏 情况 为 O(n log n) 的 条 件 下 对 
一 个 n 元 素 序列 进行 排序 。 

给 定 一 个 未 排序 个 可 比 元 素 的 序列 S 和 一 个 整数 k， 给 出 一 个 期 望 时 间 为 O(n log 月 的 算 
法 来 寻找 O( 元 素 ， 顺 序 为 [n/k1、2 [nk], 3 [n/k | 等 。 

函数 alien_split 可 以 取得 n 元 素 序 列 S$， 并 将 其 在 的 O(n) 时 间 内 划分 成 每 一 个 的 最 大 规模 为 
| za 1 的 序列 5S1,S,,…, Sg， 使 得 S; 中 的 每 个 元 素 都 小 于 或 等 于 Sia 中 的 每 个 元 素 。i= 1, 2,…， 
k-1, k«n., 说明 如 何 使 用 alien split Æ O(n log n/log k) 的 时 间 内 对 5 进行 排序 。 

阅读 关于 Python 的 排序 函数 中 reverse 关 键 字 的 文档 描述 如 何 使 用 decorate-sort- 
undecorate 实现 该 排序 函数 ， 而 不 用 假设 任何 关键 字 的 类 型 。 

通过 回答 以 下 问题 来 说 明 运 行 时 间 为 O(n log n) 的 随机 化 快速 排序 有 至 少 1 - Vn 种 可 能 ， 即 
有 高 可 能 性 。 

a) 对 每 一 个 输入 元 素 x， 定 义 Cij(x) 为 0 或 1 的 随机 变量 ， 当 且 仅 当 元 素 x 属 于 尺寸 组 i 中 
89 7 - 1 个 子 问题 中 时 为 1， 给 出 我 们 不 需要 在 ] >n 上 定义 C 的 理由 。 

b) 使 和 ;作为 0 或 1 的 随机 变量 ， 有 1/2 的 可 能 性 是 1， 独立 于 任何 其 他 的 事件 ， 并 且 使 得 
L-[logaanl« AMIGO 533431271] 
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4) BONA DM, > 4 的 可 能 性 最 多 是 JP。 使 用 切 诺 夫 界 ， 其 声明 了 如 果 克 是 独立 的 01 


随机 变量 的 有 限 数量 之 和 ， 且 期 望 值 4> 0， 那 么 当 e=2.718 281 28… 时 ，pr(X> 29) < (4/e) ". 
e) 为 何 之 前 说 的 可 以 证 明 随 机 化 快速 排序 运行 在 O(n log n) 内 的 可 能 性 至 少 有 1- Ln Re? 

C-12.55 ”通过 以 下 方法 选择 n 元 素 序列 的 基准 值 ， 我 们 可 以 使 快速 选择 算法 变 得 确定 化 。 
划分 集合 S 为 每 个 大 小 为 5 的 Tn/5 1 组 (除了 可 能 为 1 组 的 情况 )。 对 每 个 小 集合 进行 排序 并 
标记 该 集合 的 中 值 元 素 。 对 于 这 个 『 n/5 1“ 小 ”中 值 ， 应 用 选择 算法 递归 地 找 出 这 些小 中 值 
的 中 值 。 使 用 该 元 素 作为 基准 值 ， 并 在 快速 选择 算法 中 进行 。 
通过 回答 以 下 问题 来 说 明 这 个 确定 化 的 快速 选择 算法 是 运行 在 O(n) 时 间 内 的 (请 忽略 向 上 或 
向 下 取 整 函数 以 简化 数学 计算 )。 
a) 有 和 多少 小 中 值 小 于 等 于 选择 的 基准 值 ? 有 多 少 大 于 等 于 基准 值 ? 
b) 对 每 个 小 于 等 于 基准 值 的 小 中 值 来 说 ， 有 和 多少 其 他 元 素 小 于 等 于 基准 值 ? 对 于 那些 大 于 
等 于 基准 值 的 元 素来 说 是 否 有 同样 的 结论 ? 
c) 说 明 为 何 寻找 确定 的 基准 值 的 方法 和 用 它 对 S 进行 划分 的 操作 将 花费 O(n) 的 时 间 。 
d) 基于 这 些 评 估 ， 为 这 个 选择 算法 写 一 个 递归 等 式 来 限定 最 坏 情 况 运行 时 a(n), OEE, E 
最 坏 情 况 中 将 有 两 个 递归 调用 一 一 一 个 是 寻找 小 中 值 的 中 值 ， 另 一 个 是 在 更 大 的 志和 C 中 递 
归 寻 找 。) 
e) 使 用 该 递归 等 式 ， 通 过 归纳 法 来 说 明 t(n) 是 O(n). 

项 目 

P-12.56 ”实现 一 个 非 递归 的 、 就 地 的 快速 排序 算法 。 该 算法 曾 在 12.3.2 节 末 描述 过 。 

P-12.57 ”比较 就 地 快速 排序 和 非 就 地 快速 排序 的 性 能 。 

P-12.58 ”执行 一 系列 基准 测试 来 决定 归并 排序 和 快速 排序 哪个 执行 得 更 快 。 你 的 测试 不 但 应 当 包 含 
“随机 ”序列 ， 还 应 包含 “几乎 ”已 排序 的 序列 。 

P-12.59 实现 确定 化 的 和 随机 化 的 快速 排序 算法 并 执行 一 系列 基准 测试 ， 以 显示 哪个 更 快 。 你 的 测试 
应 当 包 含 非常 “随机 ”的 序列 ， 以 及 基本 上 已 经 有 序 的 序列 。 

P-12.60 ”实现 一 个 就 地 插入 排序 算法 和 一 个 就 地 快速 排序 算法 。 执 行 基准 测试 来 决定 的 值 的 范围 ， 
其 中 快速 排序 值 范 围 平均 比 插入 排序 的 值 范围 大 。 

P-12.61 设计 并 实现 一 个 桶 排序 算法 ， 用 来 排序 列表 。 该 列表 有 nn 个 条 目 ， 均 为 整 型 ， 且 来 自 范 围 
[0, N - 1](N = 2)。 该 算法 必须 运行 于 O(n + N) 的 时 间 内 。 

P-12.62 ”为 本 章 所 提 到 的 一 种 排序 算法 设计 并 实现 一 个 动画 。 你 的 动画 应 当 以 直观 的 方式 阐明 该 算法 
的 关键 性 质 。 


扩展 阅读 


Knuth 的 关于 排序 和 查找 虹 的 经 典 文献 包含 了 广泛 的 关于 排序 问题 的 历史 及 解决 它们 的 算法 。 
Huang 和 Langston” 说 明了 如 何在 线性 时 间 内 就 地 合并 两 个 已 排序 列表 。 人 快速 排序 算法 的 标准 应 当 
归功 于 Hoares"1。 很 多 快速 排序 的 最 优化 均 由 Bentley 和 McIlroy"? 描述。 更 多 的 关于 随机 化 的 描述 ， 
包括 Chernoff 约束 ， 可 以 在 附录 以 及 Motwani 和 Raghavan” 的 书 中 找到 。 本 章 中 给 出 的 快速 排序 分 
析 是 基于 本 书 早先 的 Java 版 本 ， 并 结合 了 来 自 Kleinberg 和 Tardos?! 的 分 析 。 练 习 C-12.32 归功 于 
Littman, Gonnet 和 Baeza-Yates^ 分 析 并 实验 性 地 比较 了 多 种 排序 算法 。 术 语 “ 剪 枝 搜索 ” 源 自 于 计 
算 机 几何 学 的 著作 (诸如 Clarkson"? 和 Megiddor3 AY TE). RE “WA” HAF Levitin, 
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13.4 数字 化 文本 的 多 样 性 


虽然 多 媒体 信息 很 丰富 ， 但 文本 处 理 依然 是 计算 机 的 一 个 主要 功能 。 计 算 机 可 用 于 编 
辑 、 存 储 和 显示 文件 ， 并 通过 互联 网 传送 文件 。 此 外 ， 数 字 系 统 用 于 归档 广泛 的 文本 信息 ， 
并 且 新 数据 正在 以 很 快 的 增长 速度 产生 。 一 个 大 型 的 语料库 可 以 轻而易举 地 拥有 超过 PB 级 
的 数据 (相当 于 一 千 万 亿 字 节 ， 或 者 一 百 万 千 兆 字 节 )。 包 括 文本 信息 集合 的 常见 例子 如 下 : 

e 万 维 网 的 快照 ， 以 互联 网 文本 格式 HTML 和 XML 为 主要 文本 格式 ， 它 们 用 于 为 多 

媒体 内 容 添加 标签 。 

e. 在 用 户 计算 机 上 本 地 存储 的 所 有 文件 。 

e 电子 邮件 归档 。 

e 顾客 评论 。 

e 社交 网 站 状态 更 新 的 编辑 ， 如 Facebook。 

e 微 博 网 站 的 供稿 ， 例 如 Twitter 和 Tumblr. 

这 些 集合 包括 数 百 种 国际 语言 的 书面 文本 。 此 外 ， 还 有 即使 不 是 语言 ， 也 可 以 从 计算 上 
视 为 “ 串 ” 的 大 数据 集 〈 例 如 DNA). 

在 本 章 中 ， 我 们 会 探讨 一 些 可 以 用 来 有 效 地 分 析 和 处 理 大 数据 文字 集 的 基本 算法 。 除 了 
一 些 有 趣 的 应 用 程序 之 外 ,文字 处 理 算法 还 突出 了 一 些 重 要 的 算法 设计 模式 。 

首先 考虑 在 文章 的 较 长 一 段 文字 中 搜索 子 串 时 产生 的 问题 ， 例 如 ， 搜 寻 文 件 中 的 一 个 字 
时 产生 的 问题 。 解 决 模式 匹配 问题 可 以 使 用 穷 举 法 (brute-force method)， 这 种 方法 虽然 具有 
广泛 的 适用 性 ， 但 往往 是 低 效 的 。 

接着 ， 我 们 引入 了 动态 规划 (dynamic programming) 算法 ， 它 可 以 用 于 在 特定 条 件 下 解 
决 多 项 式 时 间 内 的 问题 ， 而 这 些 问题 刚 开 始 出 现 的 时 候 需 要 指数 时 间 去 解决 。 我 们 在 字符 串 
匹配 ( 即 部 分 字符 串 相 同 ， 但 不 是 完全 相同 ) 问题 上 展示 了 这 种 技术 的 运用 。 这 种 问题 出 现 
在 对 单词 拼写 错误 提出 建议 或 者 试图 匹配 相关 遗传 样本 的 时 候 。 

由 于 文本 数据 集 十 分 庞杂 ， 因 此 对 其 进行 压缩 十 分 重要 ， 通 过 减少 网 络 传输 的 字 节 数 来 
降低 对 文档 长 期 存储 的 需求 。 对 于 文本 压缩 ， 我 们 可 以 采用 贪心 算法 ( greedy method), 这 
往往 能 就 困难 的 问题 得 到 近似 的 解决 方案 ， 并 且 对 于 一 些 问题 (例如 文本 压缩 ) 可 以 得 到 优 
化 算法 。 

最 后 ,我 们 梳理 了 一 些 有 特殊 用 途 的 数据 结构 。 这 些 数据 结构 用 于 更 好 地 组 织 文本 数 
据 ， 从 而 支持 更 高 效 的 查询 。 


字符 串 的 表示 法 和 Python 的 str 类 


我 们 在 讨论 文本 处 理 的 算法 时 使 用 字符 串 作 为 文本 模型 。 字 符 串 可 能 来 源 于 科学 、 语 言 
和 互联 网 等 各 种 应 用 。 比 如 下 面 这 些 字符 串 : 
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S 
T 


"CGTAAACTGCTTTAATCAAACGC" 
"http: //www.wiley.com" 

第 一 个 字符 串 S 来 自 DNA 应 用 程序 ， 第 二 个 字符 串 T 是 本 书 出 版 商 的 URL。 我 们 可 
以 参阅 附录 A 了 解 Python 的 str 类 支持 的 操作 。 

为 了 便于 算法 描述 ， 假 设 字符 串 中 的 字符 来 自己 知 的 字母 表 (alphabet)， 我 们 把 字母 表 
表示 为 三 。 例 如 ,在 DNA 的 背景 下 ， 标准 字 母 表 中 有 四 个 符号 ，> = {4, C, G, Ty. KT 
字母 表 X 可 能 是 ASCII 或 Unicode 字符 集 的 一 个 子 集 ， 但 也 有 可 能 是 其 他 更 一 般 的 字符 集 。 
尽管 假设 一 个 字母 表 有 固定 的 有 限 尺 寸 (表示 为 |3|), 但 尺寸 也 可 以 是 不 确定 的 ( 非 平凡 
的 )， 就 像 Python 对 Unicode 字母 表 的 处 理 ， 它 允许 多 于 一 百 万 个 不 同 的 字符 。 因 此 ， 我 们 
在 文本 处 理 算法 的 渐 近 分 析 中 要 考虑 | E | 的 影响 。 

一 些 字符 串 处 理 操 作 涉 及 把 大 字符 串 分 成 一 些小 字符 串 。 为 了 能 够 讨论 从 这 些 操作 中 产 
生 的 结果 ， 我 们 需要 依赖 于 Python 的 索引 (indexing) MaA (slicing) 符号 。 为 了 标记 方便 ， 
FAS 表示 一 个 长 度 为 n 的 字符 串 。 在 这 种 情况 下 ， 用 STj] 表示 索引 为 7 的 符号 ， 其 中 0 < j < 
n 一 1。 用 S[j:k] 表示 由 SO] 到 S[k - 1] 构成 的 子 串 (注意 ,不 是 S[k), POMS 的 一 部 分 (或 者 
子囊 ( substring))。 按 照 这 个 定义 ， 应 注意 子 串 S[j;j +m) KEN m, TE Sp] 一 般 为 长 度 
为 0 的 空 事 (null string)。 按 照 Python 的 约定 ， 当 上 <7 时 ， 子 串 S[j:k] 也 是 空子 串 。 

为 了 区 分 一 些 特 殊 类 型 的 子 串 ， 我们 需要 把 S[0:k] (0 x Kk x n) 这 种 形式 的 任意 子 串 
作为 S 的 前 级 (prefix), “4 Python 的 切片 符号 中 省 略 第 一 个 索引 时 也 会 产生 这 样 的 前 级 ， 如 
S[:k]。 同 样 ，S[j:n] (0 <j & n,) 这 种 形式 的 任意 子 串 是 S MG (suffix), “4 Python 的 切 
片 符号 中 省 略 第 二 个 索引 时 会 产生 这 样 的 后 级 ， 如 S[j:]。 举 个 例子 ， 如 果 再 次 把 S 作为 上 
面 给 出 的 DNA 的 字符 串 ,，“ CGTAA ”就 是 $ 的 一 个 前 级 ,“ CGC” 是 $ 的 一 个 后 级 ,，“C” 
既是 S 的 前 级 也 是 后 级 。 注 意 ， 空 串 是 任何 字符 串 的 前 级 和 后 级 。 


13.2 ”模式 匹配 算法 


在 经 典 的 模式 匹配 问题 中 ,我们 给 出 了 长 度 为 n 的 文本 字符 串 T 和 长 度 为 m 的 模式 字 
符 串 P， 并 希望 明确 是 否 P 是 T 的 一 个 子囊 。 如 果 是 ， 则 希望 找到 P 了 在 T 中 开始 位 置 的 最 
低 索引 7， 比 如 TD:j +m] AP 匹配 ,或 者 从 TT 中 找到 所 有 P 的 开始 位 置 索引 。 

模式 匹配 问题 在 Python 的 str 类 中 有 许多 内 在 的 行为 ， 例 如 PinT、T.find(P)、T.index(P) 
及 T.count(P)， 这 些 行为 是 更 复杂 的 行为 中 的 子 任务 ， 例 如 T.partition(P)、T.split(P) 和 
T.replace(P, Q)。 

在 本 节 中 ， 我们 将 提出 三 种 模式 匹配 算法 ， 这 三 种 算法 的 困难 程度 逐渐 增加 。 为 简单 起 
见 ， 我 们 在 字符 串 类 的 find 方法 上 对 函数 的 外 部 语义 进行 建 模 ， 在 该 模式 开始 的 时 候 返 回 
最 低 的 索引 ， 如 果 模 式 没有 找到 ， 则 返回 - 1。 


oll 


13.2.1 FÆ 


如 要 搜索 或 者 优化 某 些 功能 ， 穷 举 算 法 设计 模式 是 一 种 强大 的 技术 。 在 一 般 情 况 下 运 
用 这 种 技术 时 ， 我 们 通常 会 列举 输入 相关 的 所 有 可 能 情况 ， 并 挑 出 列举 的 所 有 情况 的 最 优 
情况 。 

在 运用 这 种 技术 来 设计 一 个 穷 举 模式 匹配 算法 时 ， 我 们 推导 出 了 可 能 是 所 要 解决 的 第 一 
个 算法 一 一 我 们 简单 地 测试 了 P 相对 于 工 产生 的 所 有 可 能 性 。 该 算法 实现 如 代码 段 13-1 所 示 。 


X OK Ab XE 379 


KBR 13-1 穷 举 模 式 匹配 算法 的 实现 
def find_brute(T, P): 


l 

2  """Return the lowest index of T at which substring P begins (or else -1).""" 
3 n, m= len(T), len(P) # introduce convenient notations 

4 for i in range(n—m-4-1): # try every potential starting index within T 
5 Kk=0 3t an index into pattern P 

6 while k < m and T[i + kJ == P[k]: # kth character of P matches 
7 k+=1 

8 if k == m: # if we reached the end of pattern, 

9 return i # substring T[i:i+:m] matches P 

lÜ return —1 # failed to find a match starting with any i 
性 能 


对 穷 举 模式 匹配 算法 的 分 析 很 简单 。 它 由 两 个 垦 套 的 循环 组 成 : 一 个 是 在 文本 模式 所 有 
可 能 的 开始 索引 进行 外 部 循环 索引 ; 另 一 个 是 在 模式 的 每 个 字符 之 间 进 行内 部 循环 索引 ， 并 
将 它 和 文章 中 潜在 对 应 的 字符 进行 比较 。 因 此 ， 通 过 穷 举 搜索 方法 ， 穷 举 模式 匹配 算法 的 正 
确 性 立刻 就 能 得 到 保证 。 

在 最 坏 的 情况 下 ， 穷 举 模式 匹配 的 运行 时 间 很 长 ， 因 为 对 于 T 中 的 每 个 索引 ， 无 论 如 
何 都 要 对 疡 个 字符 进行 比较 ， 最 后 却 可 能 发 现在 当前 的 索引 下 P 和 T 并 不 匹配 。 参 考 代 码 
段 13-1， 我 们 看 到 外 部 for HA BA RPT T n m VIX, WB while 循环 至 多 执行 了 mm 
次 。 因 此 ， 穷 举 方法 最 坏 情 况 下 的 运行 时 间 是 O (nm), 

例题 13-1: 假设 给 出 如 下 的 文本 字符 串 

T = "abacaabaccabacabaabb" 

模式 字符 串 为 

P = "abacab" 
图 13-1 说 明了 穷 举 模式 匹配 算法 在 T 和 了 上 的 执行 过 程 。 





11 比 较 未 显示 
722 23 24 25 26 27 


图 13-1 穷 举 模式 匹配 算法 的 运行 示例 。 该 算法 对 27 个 字符 进行 比较 ， 字 符 上 方 用 数字 标签 表示 


13.2.2 Boyer-Moore 算法 


起 初 ， 为 了 找 出 作为 子 串 的 模式 P 了 或 者 排除 它 存 在 的 可 能 性 ， 检 查 T 中 的 每 个 字符 似 
乎 是 非常 必要 的 。 但 并 不 总 是 如 此 。 我 们 在 本 节 中 研究 的 Boyer-Moore 模式 匹配 算法 有 时 可 
以 避免 对 P 和 T 中 占 很 大 比例 的 字符 进行 比较 。 在 本 节 中 ， 我 们 会 描述 Boyer 和 Moore 提 
出 的 简化 版 原始 算法 。 
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Boyer-Moore 算法 的 主要 思想 是 通过 增加 两 个 可 能 省 时 的 启发 式 算法 来 提升 穷 举 算 法 的 
运行 时 间 。 这 些 启发 式 算法 大 致 如 下 : 
e 镜像 启发 式 (looking-glass heuristic): 当 测 试 P 相对 于 工 可 能 的 位 置 时 ， 可 以 从 了 的 
尾部 开始 比较 ， 然 后 从 后 向 前 移动 直到 P 的 头 部 。 
e 字幕 跳 路 启发 式 (character-jump heuristic): 在 测试 P 在 T 中 可 能 的 位 置 时 ， 有 着 相 
应 模式 字符 P[k] 的 文本 字符 T[i] = c 的 不 匹配 情况 按 如 下 方法 处 理 。 如 果 P 中 任何 
位 置 都 不 包含 c， 则 将 P 完全 移动 到 T[i] 之 后 (因为 它 不 能 匹配 P 中 任何 一 个 字符 ) ; 
否则 ， 直 到 了 中 出 现 字 符 c 并 与 T[i] 一 致 才 移 动 P。 
我 们 将 会 尽快 形式 化 这 些 启发 式 算法 ,但 直观 上 来 讲 ， 它 们 作为 一 个 完整 的 团体 进行 工 
作 。 镜 像 启发 式 通过 设置 其 他 启发 式 来 避免 P 和 T 整 个 群 组 之 间 的 所 有 字符 进行 比较 。 至 
少 在 这 种 情况 下 ， 通 过 倒 着 匹配 可 以 更 快 地 到 达 目 的 ， 因 为 如 果 在 考虑 P 在 T 中 的 确定 位 
置 时 遇 到 了 不 匹配 ， 我 们 可 以 利用 字符 跳跃 启发 式 算法 相对 于 T 大 幅度 移动 P 来 避免 大 量 
无 用 的 比较 。 如 果 及 早 运 用 字符 跳 路 启发 式 算法 测试 P 相对 于 TT 的 位 置 ， 它 将 起 到 很 大 的 
作用 。 图 13-2 展示 了 这 些 启发 式 的 一 些 简 单 应 用 。 







[s|u[S]n]i] 
图 13-2 直观 展示 Boyer-Moore 模式 匹配 算法 的 一 个 简单 示例 。 原 来 的 比较 结果 导致 了 文本 字符 e 的 
不 匹配 。 因 为 那个 字符 不 在 模式 中 ， 整 个 模式 从 当前 的 位 置 跳 了 过 去 。 第 二 个 比较 同样 是 不 
匹配 的 ,但 是 不 匹配 字符 s 在 模式 的 其 他 地 方 出 现 了 。 模 式 向 下 移动 ， 因 此 s 的 最 后 一 次 出 
现 与 文本 中 相应 的 对齐。 该 方法 的 其 余部 分 并 没有 在 该 图 中 显示 


图 13-2 的 例子 是 相当 基础 的 ， 因 为 它 仅仅 涉及 该 模式 最 后 一 个 字符 的 不 匹配 情况 。 一 
般 情况 下 ， 当 最 后 一 个 字符 的 匹配 被 找到 时 ， 该 算法 试图 在 目前 的 对 齐 情况 下 对 该 模式 的 倒 
数 第 二 个 字符 扩展 匹配 。 这 个 进程 持续 进行 ， 直 到 整个 模式 匹配 完全 或 者 在 模式 的 某 些 内 部 
位 置 发 现 不 匹配 时 才 停止 进行 。 

如 果 发 现 不 匹配 ， 并 且 文 章 中 不 匹配 的 字符 没有 出 现在 模式 中 ， 则 直接 将 整个 模式 字符 
串 从 当前 位 置 跳 过 去 ， 就 像 图 13-2 最 初 陈 述 的 那样 。 如 果 不 匹 配 字 符 发 生 在 模式 的 其 他 位 
置 ， 则 必须 根据 它 最 后 出 现 的 位 置 是 在 不 匹配 对 齐 的 模式 的 字符 之 前 还 是 之 后 来 考虑 两 种 子 
情况 。 这 两 种 情况 如 图 13-3 所 示 。 

在 图 13-3b 的 情况 下 ， 仅 仅 对 模式 移动 一 个 单元 。 直 到 找到 不 匹配 字符 T[i] 在 模式 中 的 
另 一 个 出 现 的 位 置 才 向 右 移动 ， 这 样 是 更 加 有 效 的 ， 但 是 我 们 不 希望 花费 时 间 去 寻找 另 一 个 
出 现 的 位 置 。Boyer-Moore 算法 的 高 效 依赖 于 创建 一 个 查阅 的 表 ， 使 其 能 够 更 快 地 定位 模式 
中 不 匹配 的 字符 发 生 在 其 他 哪个 地 方 。 特 别 地 ， 我 们 定义 一 个 函数 last(c) 如 下 : 

e 如 果 c 在 P 中 ,last(c) 是 c 在 P 中 最 后 一 次 出 现 的 索引 ; 和 否则， 默认 定义 last(c)=- 1。 

如 果 假 设 字母 表 是 固定 的 、 有 限 大 小 的 ， 并 且 那 些 字符 可 以 转变 成 一 个 数组 的 索引 ( 例 
如 ， 通 过 使 用 它们 的 字符 代码 )， 可 以 简单 地 将 最 后 一 个 功能 实现 为 一 个 查找 表 ， 该 表 在 查 
$R last(c) 函数 值 的 时 候 ， 最 坏 情 况 下 的 时 间 复 杂 度 是 0(1)。 然 而 ， 这 个 表 的 长 度 和 字母 表 
的 大 小 相等 (而 不 是 模式 的 大 小 )， 并 且 还 需要 初始 化 整个 表 的 时 间 。 


d 





Fd 13-3 Boyer-Moore 算法 的 字符 跳跃 启发 式 的 附加 规则 。 令 i 代表 文章 中 不 匹配 字符 的 索引 , 上 代表 
模式 中 出 现 的 索引 , 了 代表 TH 在 模式 中 最 后 一 次 出 现 位 置 的 索引 。 我 们 区 分 两 种 情况 : @j « k, 
这 种 情况 下 对 模式 移动 -jj 个 单元 ， 因 此 索引 i 会 前 进 m 一 0+ 1 个 单元 ; Qj» k, xtti 
况 下 对 模式 移动 1 个 单元 ， 索 引 i 会 前 进 m -个 单元 
我 们 用 哈 硕 表 来 实现 ， 仅 仅 包含 在 结构 中 出 现 的 来 自 模式 的 那些 字符 。 这 种 方法 使 用 的 
空间 与 模式 中 不 同 字符 的 数量 成 正比 ， 因 此 空间 复杂 度 为 O(m)。 期 望 的 查询 时 间 与 问题 的 
规模 无 关 (尽管 最 坏 情况 的 界限 是 O(m))。 我 们 在 代码 段 13-2 中 给 出 了 Boyer-Moore 模式 
匹配 算法 的 完整 实现 。 


代码 段 13-2 Boyer-Moore 算法 的 实现 
def find_boyer_moore(T, P): 


] 

2 """ Return the lowest index of T at which substring P begins (or else -1).""" 
3 n, m len(T), len(P) # introduce convenient notations 
4 if m == 0: return 0 # trivial search for empty string 
5 fastt={} # build ‘last’ dictionary 

6 for k in range(m): 

7 last[ P[k] ] = k # later occurrence overwrites 

8  # align end of pattern at index m-1 of text 

9 i — m-1 # an index into T 

10 k-—m-1 # an index into P 

ll while i < n: 

12 if T[i] == P[k]: # a matching character 

13 if k.—- 0: 

14 return i # pattern begins at index i of text 
15 else: 

16 i-=1 # examine previous character 

17 k—=1 # of both T and P 

18 else: 

19 j = last.get(T[i], —1) # last(T[i]) is -1 if not found 

20 i += m — min(k, j + 1) # case analysis for jump step 

21 k—-m-1 # restart at end of pattern 


22 return —1 


Boyer-Moore 模式 匹配 算法 的 正确 性 是 通过 这 样 的 方式 来 保证 的 ， 即 该 方法 的 每 一 次 移 
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位 都 保证 不 会 “ 跳 过 ”任何 可 能 的 匹配 。 因 为 last(c) 是 c 在 P 中 最 后 一 次 出 现 的 位 置 。 在 
图 13-4 中 ， 我 们 将 说 明 Boyer-Moore 模 
式 匹配 算法 在 类 似 例 题 13-1 的 一 个 输入 
字符 串 的 情况 下 的 执行 过 程 。 

性 能 

如 果 使 用 传统 的 查找 表 ， 在 最 坏 的 
情况 下 Boyer-Moore 算法 的 运行 时 间 是 
O(nm +|Y)。 即 ， 最 后 一 个 功能 的 计 
算 需 要 花费 时 间 O(m + ||), FF AAR 
式 的 实际 搜寻 在 最 坏 的 情况 下 花费 时 间 
为 O(nm)， 和 穷 举 算法 的 花费 时 间 一 样 图 13-4 Boyer-Moore 模 式 匹 配 算法 的 说 明 ， 包 括 





(|E | 的 依赖 在 有 哈 希 表 的 情况 下 被 移 last(c) 函数 的 概述 。 该 算法 执行 了 13 个 字符 
除 。) 一 个 文本 模式 达到 最 坏 的 情况 的 一 的 比较 ， 字 符 上 方 用 数字 标签 表示 
个 例子 是 


T = aaaaaa…'a 
n 


P = baa 
m-1 

然而 ， 英 文 文本 不 太 可 能 有 最 坏 的 情况 ， 因 为 在 这 种 情况 下 ，Boyer-Moore 算法 往往 能 
够 跳 过 文本 的 大 部 分 。 英 文 文本 的 实验 证 据 表明 ， 每 个 字符 作 比 较 的 平均 数量 是 每 5 个 字符 
模式 字符 串 中 有 0.24 次 比较 。 

我 们 实际 上 提出 了 Boyer-Moore 算法 的 简化 版 本 。 每 当 原始 算法 改变 模式 超过 字符 跳跃 启 
发 式 时 ， 原 始 算法 通过 对 部 分 匹配 的 文本 字符 串 使 用 替代 转变 启发 式 达 到 的 运行 时 间 为 O(n + 
m 二 | 允 |)。 这 个 替代 转变 启发 式 是 基于 借鉴 Knuth-Morris-Pratt 模式 匹配 算法 的 主要 思想 。 


13.2.3 Knuth-Morris-Pratt 算法 


如 例题 13-1 所 示 ， 在 特定 实例 情况 下 ,测试 穷 举 算法 和 Boyer-Moore 匹配 算法 的 最 差 
性 能 。 对 于 模式 的 一 个 确定 的 调整 ， 如 果 发 现 一 些 匹配 的 字符 但 后 来 又 发 现 不 匹配 ， 在 模式 
下 一 次 重新 匹配 时 ， 我 们 忽略 所 有 由 成 功 的 比较 获得 的 信息 。 

在 本 节 讨 论 的 Knuth-Morris-Pratt (或 者 “KMP”) 算法 ， 避 免 了 信息 的 浪费 ， 并 且 它 能 
达到 的 运行 时 间 为 O(n + 四 ， 这 是 渐 近 最 优 运行 时 间 。 即 在 最 坏 的 情况 下 ， 任 何 模式 匹配 
算法 将 会 对 文本 的 所 有 字符 和 模式 的 所 有 字符 检查 至 少 一 次 。KMP 算法 的 主要 思想 是 预先 
计算 模式 部 分 之 间 的 自重 厂 ， 从 而 当 不 匹配 发 生 在 一 个 位 置 时 ,我 们 在 继续 搜寻 之 前 就 能 立 
刻 知道 移动 模式 的 最 大 数目 。 一 个 很 好 的 例子 如 图 13-5 所 示 。 

失败 函数 

为 了 实现 KMP 算法 ,我 们 会 预先 计算 失败 函数 凡 该 函数 用 于 表示 匹配 失败 时 P 对 应 
的 位 移 。 具 体 地 ， 失 败 函 数 AU) 定义 为 P 的 最 长 前 缀 的 长 度 ， 它 是 P[1:k + 1] 的 后 级 (注意 ， 
我 们 这 里 没有 包含 P[0]， 因 为 至 少 会 移动 一 个 单元 )。 直 观 地 说 ， 如 果 在 字符 P[k + 1] 中 
找到 不 匹配 ， 函 数 MK) 会 告诉 我 们 多 少 紧 接着 的 字符 可 以 用 来 重启 模式 。 例 题 13-2 描述 了 
图 13-5 例子 中 模式 的 失败 函数 的 值 。 
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图 13-5 Knuth-Morris-Pratt 算法 的 一 个 示例 。 如 果 一 个 不 匹配 发 生 在 指定 的 位 置 ， 模 式 应 该 被 移动 到 
第 二 个 对 齐 的 位 置 ， 并 不 特别 需要 用 AMA 前 级 去 重新 检查 部 分 匹配 。 如 果 不 匹 配 的 字符 不 
是 1， 下 一 次 匹配 将 充分 利用 已 经 匹配 的 公共 字母 a 


例题 13-2 : 考虑 从 图 13-5 得 到 的 模式 P= "amalgamation", 3} TÆ F OREM FHS 
P, Knuth-Morris-Pratt(KMP) 失败 函数 为 刀口 。 





实现 
KMP 模式 匹配 算法 的 实现 如 代码 段 13-3 所 示 。 它 依赖 于 一 个 有 效 的 函数 compute _ 


kmp fail 计算 KMP 的 失败 ， 该 函数 可 以 有 效 计 算 失 败 函数 。 


代码 段 13-3 KMP 模式 匹配 算法 的 实现 。compute_kmp_fail 效用 函数 在 代码 段 13-4 中 给 出 


def find_kmp(T, P): 
""" Return the lowest index of T at which substring P begins (or else -1) 


nies 


1 

2 

3 n,m= len(T), len(P) # introduce convenient notations 
4 ifm == 0: return 0 # trivial search for empty string 
5 fail = compute. kmp. fail(P) # rely on utility to precompute 
6 j=0 # index into text 

7 k=0 # index into pattern 

8 while j < n: 

9 if T[j] 2— P[k]: # P[0:1+-k] matched thus far 
10 if k — m — 1: #4 match is complete 

11 return j —m+1 

12 jt=1 # try to extend match 

13 k+=1 

14 elif k > 0: 

15 k — fail[k—1] # reuse suffix of P[0:k] 

16 else: 

17 jt=1 

18 return —1 # reached end without match 


KMP 算法 的 主要 部 分 是 它 的 while 循环 ， 每 一 次 迭代 会 对 T 中 索引 7 的 字符 和 了 中 索引 上 
的 字符 进行 比较 。 如 果 这 次 比较 的 结果 是 匹配 ， 算 法 在 T 和 了 中 会 移动 到 下 一 个 字符 (或 者 ， 
如 果 到 达 模 式 的 最 后 ， 将 报告 一 个 匹配 的 结果 )。 如 果 比 较 失 败 了 ， 算 法 会 对 P 中 的 新 候选 字 
符 导 出 失败 函数 ; 否则， 就 从 T 中 的 下 一 个 索引 开始 〈 因 为 没有 东西 可 以 被 重复 使 用 )。 

KMP 失败 函数 的 构建 

为 了 构建 失败 函数 ， 我 们 使 用 代码 段 13-4 中 的 方法 ， 这 是 一 个 “引导 过 程 ”， 它 将 模式 
与 KMP 中 的 模式 进行 比较 。 每 次 有 两 个 匹配 的 字符 ， 我 们 设置 用 ) =k +1, TER, AWE 
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整个 算法 中 已 经 有 .jj > 上 ， 当 使 用 它 的 时 候 ，XE - 1) 总 是 被 定义 得 很 好 。 


代码 段 13-4 compute kmp fail 的 实现 ， 用 于 支持 KMP 模式 匹配 算法 。 注 意 算法 是 如 何 使 用 失败 函 


数 之 前 的 值 去 有 效 地 计算 新 值 


def compute. kmp. fail(P): 


"""Utility that computes and returns KMP "fail' list." "" 


l 

2 

3 m=len(P) 
4 fail = [0] +m 
5 j=1 

6 k=0 


7  whilej < m: 
8 if P[j] == P[k]: 


9 fail] =k +1 
10 j+=1 

11 k+=1 

12 elif k > 0: 

13 k = fail[k—1] 
14 else: 

15 jt=1 


16 return fail 


性 能 


# by default, presume overlap of 0 everywhere 


# compute f(j) during this pass, if nonzero 
# k + 1 characters match thus far 


# k follows a matching prefix 


# no match found starting at j 


除去 失败 函数 的 计算 外 ，KMP 算法 的 运行 时 间 明 显 正 比 于 while 循环 的 迭代 次 数 。 为 
了 方便 分 析 , 令 8 =. - 所 直观 地 说 ，s 是 模式 P 关于 文本 T 移动 的 总 数 。 需 要 注意 的 是 ， 
在 整个 算法 执行 过 程 中 ，s < n。 以 下 三 种 情况 中 的 某 一 种 发 生 在 循环 的 每 次 迭代 时 。 

e WAR T[j] - P[k], 7 和 大 每 次 增加 1， 因此 ，s 不 发 生 改 变 。 

e WR TU] 关 P[k] 且 k>0,j 不 改变 并 且 s 至 少 增加 1， 因 为 在 这 种 情况 下 ，s 在 j 一 

Bj — fk — 1) 之 间 发 生 改变 ， XÆ k — fk — 1) 的 附加 ， 因 为 fk 一 1)<k 是 确定 的 。 

e WÈ TU] 关 P[] 且 k=0， 因 为 不 会 改变 ， 所 以 j 和 s 每 次 增加 1。 

因此 ， 在 循环 的 每 次 迭代 中 , RE s 每 次 至 少 增加 1 (也 可 能 两 个 都 会 增加 )。 因 此 ， 
在 KMP 模式 匹配 算法 中 ，while 循环 的 迭代 总 次 数 至 多 为 22。 当 然 ， 为 了 实现 这 一 约束 ， 


应 假设 已 经 计算 出 了 了 的 失败 函数 。 

计算 失败 函数 的 算法 的 运行 时 间 为 
O(m)。 它 的 分 析 方 法 类 似 于 主要 的 KMP 算 
法 ， 有 一 个 长 度 为 m 的 模式 和 它 自己 进行 
比较 。 因 此 ， 我 们 得 出 : 

命题 13-3 : Knuth-Morris-Pratt 算法 执行 
KA nth LAF BAKA m 的 模式 字 
符 串 的 匹配 ， 所 需 的 运行 时 间 为 O (n+m), 

该 算法 的 正确 性 是 根据 失败 函数 的 定 
义 而 来 的 。 任 何 跳 过 的 比较 其 实 都 是 没有 必 
要 的 ， 因 为 失败 函数 保证 了 所 有 忽略 的 比较 
都 是 多 余 的 一 一 会 多 次 涉及 比较 相同 的 匹配 
字符 。 

在 图 13-6 中 ， 我 们 说 明了 KMP 模式 
匹配 算法 对 例 13-1 中 输入 字符 串 的 执行 。 





Bilal clad] 
8 101112 
执行 比较 ] 
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图 13-6 KMP 模式 匹配 算法 的 说 明 。 该 基本 算法 
对 19 个 字符 进行 比较 ， 用 数字 标签 进行 
表示 (在 失败 函数 的 计算 中 会 执行 附加 的 
比较 ) 
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注意 ， 之 所 以 使 用 失败 函数 ， 是 为 了 避免 对 模式 中 的 字符 和 文本 中 的 字符 进行 重复 比较 。 同 
样 需要 注意 的 是 ， 在 对 相同 的 字符 串 进 行 所 有 比较 时 ， 该 算法 比 贪心 算法 运行 的 次 数 更 少 
( 见 图 13-1). 


13.3 动态 规划 


在 本 节 中 ， 我们 将 讨论 动态 规划 算法 设计 技术 。 该 技术 和 分 而 治之 算法 (12.2.1 节 ) 类 
似 ， 可 应 用 于 各 种 不 同 的 问题 。 动 态 规 划 经 常用 于 解决 一 些 问题 ， 这 些 问题 可 能 需要 用 指数 
时 间 和 多 项 式 时 间 算 法 去 解决 。 另 外 ， 由 动态 规划 技术 的 应 用 所 产生 的 算法 通常 是 相当 简单 
的 ， 只 需要 比 几 行 代码 多 一 点 的 代码 去 描述 填写 在 表 中 的 一 些 般 套 循 环 。 


13.3.1 抑 阵 链 乘积 


我 们 首先 给 出 一 个 经 由 、 上 有 具体 的 例子 ， 而 不 是 先 对 动态 规划 技术 的 通用 部 分 进行 说 明 。 
假设 给 定 n 个 二 维和 矩阵 的 集合 ， 用 来 计算 这 n 个 矩阵 的 数学 乘积 。 
4=4 Ait Ao * 4 | 
HP, AS dxd EE, Hh is o, 1, 2,…, n- 1。 在 标准 矩阵 乘法 算法 中 (将 会 使 
用 的 一 个 算法 )， 乘 以 一 个 dxe WHEE B HRA exf EREC, RARAN 


AUIL] = Ë BUIK]: CAI 


这 个 定义 意味 着 矩阵 乘法 具有 结合 律 ， 也 就 是 说 , B-(C-D)-(B- C)- D。 因 此 ， 可 以 对 
A 的 表达 式 以 任何 方式 加 圆 括号 ， 并 且 得 到 相同 的 答案 。 然 而 ， 没 有 必要 对 每 一 个 圆 括号 表 
达 式 执行 相同 数量 的 原始 ( 即 标量 ) 增加 ， 如 以 下 示例 所 示 。 

例题 13-4: 令 BB 是 一 个 2 x 10H HK, C£ —^- 10 x 50 6948, D 是 一 个 50 x 20 的 
soe, 3FÉB-(C* D) 需要 2 .10.20+10.50.20=10400 次 乘法 ， 而 计算 (B - C): D 
$34 2-10*50-2-*50- 20-3000 次 乘法 。 

AE I-A Fe AR [n] Bl Ie De E EXCEL 的 表达 式 的 圆 括 号 表达 式 ， 用 以 减少 执行 乘法 标量 
的 总 数量 。 正 如 上 面 的 例子 所 示 ， 圆 括号 表达 式 之 间 的 差异 可 能 很 大 ， 因 此 找到 一 个 好 的 解 
决 方案 可 能 会 明显 提高 速度 。 

定义 子 问题 

解决 矩阵 链 乘法 的 一 个 方式 是 简单 地 列举 4 的 圆 括号 表达 式 的 所 有 可 能 ， 并 且 确 定 每 
一 个 执行 的 乘法 的 数量 。 不 幸 的 是 ,4 的 所 有 不 同 的 圆 括号 表达 式 的 设置 和 所 有 不 同 的 具有 
n 个 叶子 二 进 制 树 的 设置 相同 。 这 个 数 是 n 的 指数 。 因 此 ， 这 个 简单 (“贪心”) 算法 运行 时 
间 为 指数 时 间 ， 因 为 有 指数 数量 种 为 组 合算 术 表 达 式 加 圆 括号 的 方法 。 

可 以 通过 贪心 算法 显著 改善 实现 的 性 能 ， 不 过， 也 可 以 通过 对 和 矩阵 乘积 链 问题 的 性 质 
进行 一 些 观测 来 改善 实现 的 性 能 。 首 先 ， 这 个 问题 可 以 被 分 成 子 问 题 。 在 这 种 情况 下 ， 可 以 
定义 多 个 不 同 的 子 问题 ， 每 一 个 都 是 为 了 计算 子 表 达 式 Ait Asa ton … 帮 最 好 的 圆 括号 表达 
式 。 作 为 一 个 简要 的 表示 法 ， 使 用 W 来 表示 计算 这 个 子 表 达 式 需要 的 乘法 的 最 小 数量 。 因 
此 ， 原 始 矩 阵 链 乘法 问题 可 以 被 定性 为 计算 No, n-1 的 值 。 这 个 观察 是 重要 的 ， 但 是 为 了 应 用 
动态 规划 技术 ， 我 们 需要 进行 更 多 观察 。 

表征 最 优 解 

另外 一 个 可 以 对 抑 阵 链 乘 法 问题 做 的 重要 的 观察 是 : 就 一 个 特别 的 子 问题 的 最 佳 解决 方案 








而 言 ， 对 它 的 子 问题 表征 一 个 最 佳 解决 方案 是 可 能 的 。 我 们 把 这 个 属性 叫 作 子 问 题 最 优 条 件 。 

在 矩阵 链 乘法 问题 的 情况 下 ， 我 们 观察 到 ， 无 论 怎样 对 一 个 子 表达 式 加 圆 括号 ， 最 终 必 
然 会 执行 一 些 和 矩阵 乘法 和 运算。 也 就 是 说 ， 子 表达 式 4;* Aig con A 完整 的 圆 括号 表达 式 必 
须 是 (4;… Ag) (Aes AD, HP, kE {i, i+1, c, /一 1}。 此 外 ， 对 于 任意 确切 的 ， 
乘积 CA; +++ Ay) 和 (Ages t Aj) 都 必须 被 最 优 解决 。 如 果 不 是 这 样 ， 那 将 是 全 局 最 优 ， 即 每 
个 子 问题 都 被 有 效 解 决 。 但 这 是 不 可 能 的 ， 因 为 接 下 来 可 能 通过 一 个 子 问 题 的 最 优 解决 方案 
重 置 当前 子 问题 的 解决 方案 来 减少 乘法 的 总 数量 。 就 其 他 子 问题 优化 解决 方案 而 言 ， 这 个 发 
现 提 出 了 一 种 对 于 NM 明确 定义 最 优 问题 的 方式 。 也 就 是 说 ， 我 们 可 以 通过 考虑 每 个 上 的 位 
置 来 计算 N;;， 在 的 位 置 可 以 放置 最 后 的 乘法 并 从 中 取 最 小 值 。 

设计 动态 规划 算法 

我 们 可 以 表征 子 问 题 最 优 解 决 方案 Niy 为 

Ni j= min {N; + Neat di dre+1 di+1} 

HP, Ni = 0， 因 为 对 单个 矩阵 不 需要 进行 任何 操作 。 也 就 是 说 ，Ni ;是 最 小 值 ， 它 占 
据 所 有 可 能 的 位 置 去 执行 最 终 的 乘法 ， 即 计算 每 个 子 表达 式 需 要 的 乘法 的 数目 加 上 执行 最 后 
的 乘法 需要 的 数目 。 

注意 ， 有 一 类 问题 会 禁止 我 们 把 其 分 解 成 独立 的 子 问题 (这 是 为 了 应 用 分 而 治之 技术 )。 
不 过 ， 可 以 通过 计算 自 底 向 上 的 方式 产生 的 Ni 值 和 在 NM, 值 的 表 中 存储 中 间 解 决 方案 的 方 
式 , 使 用 N, 的 方程 得 到 一 个 高 效 的 算法 。 我 们 可 以 通过 指定 Ni; = 0(i = 0, 1, n - 1) fij 
单 地 开始 。 我 们 可 以 应 用 Nij 的 一 般 方程 去 计算 Ni ,1141 的 值 ， 因 为 它们 仅仅 需要 可 用 的 Ni 
AUN, Wo Nii 的 值 已 经 给 出 ,我 们 接 下 来 可 以 计算 Ni ;1; 的 值 ， 并 以 此 类 推 。 因 此 ， 
直到 最 终 计 算出 了 一 直 在 寻找 的 No,，- 1 的 值 ， 才 可 以 从 以 前 计算 得 到 的 值 中 推导 出 N, ;的 
值 。 这 种 动态 规划 解决 方案 的 Python 实现 在 代码 段 13-5 中 给 出 。 


代码 段 13-5 ”矩阵 链 乘 积 的 动态 规划 算法 
def matrix_chain(d): 
"""d is a list of n--1 numbers such that size of kth matrix is d[k]-by-d[k--1]. 


l 
2 
3 
4 Return an n-by-n table such that N[i][j] represents the minimum number of 
5 multiplications needed to compute the product of Ai through Aj inclusive. 
6 mm 
7 
8 


n — len(d) — 1 # number of matrices 
N — [[0] * n for i in range(n)] # initialize n-by-n result to zero 
9 for b in range(1, n): # number of products in subchain 
10 for i in range(n—b): # start of subchain 
11 j=i+b # end of subchain 
12 N[i]] = min(N{i][k]-+N[k+1][j]+d[i]*d[k+1]+*d[j+1] for k in range(i,j)) 


13 return N 


Wb, RTEUHSE SERIA THAME (第 三 个 内 套 循环 计算 最 小 项 ) 的 算法 来 计算 
No.n1。 每 个 这 样 的 循环 每 次 执行 时 最 多 迭代 nn 次 , 它 的 内 部 具有 恒定 数量 的 附加 工作 。 因 
此 ， 这 个 算法 的 总 运行 时 间 为 Om). 

13.3.2 DNA 和 文本 序列 比 对 


一 个 常见 的 出 现在 遗传 学 和 软件 工程 中 的 文本 处 理 问 题 是 测试 两 个 文本 字符 串 的 相似 
性 。 在 遗传 学 中 ， 两 个 字符 串 对 应 于 DNA 的 两 条 链 。 同 样 ， 在 软件 工程 中 ， 两 个 字符 串 可 
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能 是 来 自 相 同 程序 的 两 个 不 同 版 本 的 代码 源 ， 为 此 ， 我 们 需要 确定 一 个 版 本 和 下 一 版 本 之 间 
所 做 的 改变 。 事 实 上 ,确定 两 个 字符 串 之 间 的 相似 性 如 此 普遍 ， 以 至 于 UNIX 和 Linux 操作 
系统 各 有 一 ‘PRR eR 

给 定 一 个 字符 串 X = Xo X1 X2 *** Xn-15 了 的 一 个 子 序列 是 任何 有 具有 Xi Xin *** Xik 形式 的 字符 
&. Arieta: OULU, RIL RATEN, TESE. POELTIANA, 
fili, FFP AAAG 是 字符 串 CGATAATTGAGA 的 子 序列 。 

这 里 讨论 的 DNA 和 文本 相似 性 的 问题 是 最 长 公共 子 序列 (LCS) 问题 。 在 这 个 问题 中 ， 
通过 一 些 字 母 表 (例如 在 计算 遗传 学 中 常见 的 字母 表 {A, C, G, TJ) 给 出 两 个 字符 串 ,， X= x0 
Xj Xo 7 Xa LY = yo yi yym-1， 然 后 要 求 找 出 最 长 的 字符 串 S,，S 是 和 了 共同 的 子 序列 。 
一 种 解决 最 长 公共 子 序列 问题 的 方法 是 列举 的 所 有 子 序列 ， 并 找 出 同样 是 了 的 子 序列 中 
最 大 的 一 个 。 由 于 每 个 中 的 字符 无 论 在 不 在 子 序列 中 ， 都 有 可 能 有 2" 个 不 同 的 钱 的 子 序 
列 ， 每 个 子 序列 确定 其 是 否 是 了 的 子 序列 需要 的 时 间 是 O (m)。 因 此 ， 这 种 蛮 力 方法 产生 了 
一 个 非常 低 效 的 具有 指数 时 间 的 算法 ， 其 运行 时 间 为 0( 2 )。 幸 运 的 是 ， 用 动态 规划 可 以 
有 效 地 解决 LCS 问题 。 

动态 规划 解决 方案 的 组 件 

如 上 所 述 ， 动 态 规划 技术 主要 应 用 在 希望 找到 做 某 事 的 最 优 解 的 优化 问题 中 。 如 果 问 题 
具有 一 定 的 属性 ,我们 可 以 在 这 样 的 情况 下 运用 动态 规划 技术 : 

e 简单 子 问 题 : 必须 有 一 些 方式 将 全 局 优化 问题 重复 地 划分 为 子 问题 。 而 且 ， 应 该 有 

只 用 一 些 索 引 来 参数 化 子 问题 的 方式 。 

e 子 问题 优化 : 全 局 问题 的 优化 解决 方案 必须 是 由 子 问题 优化 解决 方案 组 成 的 。 

e 子 问 题 重复 : 无 关子 问题 的 优化 解决 方案 可 以 包含 共同 的 子 问题 。 

对 LCS 问题 应 用 动态 规划 

回想 一 下 ， 在 LCS 问题 中 所 得 到 的 两 个 字符 串 ， 即 长 度 为 n XAKER mh Y, 并 
且 要 求 找 到 一 个 最 长 的 字符 串 $S,S 是 和 7 的 子 序 列 。 因 为 X 和 了 都 是 字符 串 ， 我们 有 一 
个 定 》 s 定义 一 个 子 问题 ， 因 此 ， 作 为 计算 
值 Lj :， 我 们 将 用 它 来 表示 最 长 字符 串 的 长 度 ， 最 长 字符 串 是 前 级 X[0 : ] A Y[0:k] 的 一 个 
子 序 列 。 这 个 定义 允许 我 们 针对 子 问题 优化 解决 方案 重 写 Li 1。 其 定义 取决 于 图 13-7 所 示 的 
两 种 情况 。 











Lion = 1 + Lo, n Lo, = max(L, io, Ls, n) 
0123456789 012345678 
X-GTTCCTAATA X-GTTCCTAAT 


Lb US UN 


Y-CGATAATTGAGA Y-CGATAATTGAG 
01234567891011 0123456728910 
a) Xj-17Ji-1 b) x-1 É yk-1 


图 13-7 最 长 公共 子 序列 算法 在 计算 L AS RP TL 


e x= yio 在 这 种 情况 下 ， 我 们 对 X[0: 7] 的 最 后 一 个 字符 和 Y[0: 月 的 最 后 一 个 字符 
进行 匹配 。 声 明 这 个 字符 属于 X[0 : 7] Al YOR 的 最 长 共同 子 序列 。 为 了 证 明 这 个 声明 ， 
先 假设 它 是 不 正确 的 ， 则 必 有 最 长 共同 子 序列 xa Xa2"* "Xa, = Yor i27 “Vp.o 如 果 x。、 =Xj-1 或 
者 ys.=y-1， 则 通过 设置 a.=j 一 1, 5. — k — 1 得 到 相同 的 子 序列 。 接 下 来 ， 如 果 xs xa 
并 且 ys. 关 训 -1， 则 通过 增加 为 -1 = yi 到 最 后 甚至 可 以 得 到 更 长 的 公共 子 序列 。 这 样 的 
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ih, X[0: jA Y[0:k] 的 最 长 公共 子 序列 以 z 结 束 。 因 此， 可 以 设 定 
Lijy ltLj-yk-i1,. RI xj i7 yii 
e xiii yi-ao TEAL, ARES A x; ci 和 yi- 1 的 共同 子 序列 。 也 就 是 
说 ， 可 以 得 到 一 个 以 鸭 - 1 结束 的 或 者 以 y- 1 结束 的 共同 子 序列 (或 者 可 能 都 不 会 得 
到 )， 但 是 这 两 者 不 可 能 同时 得 到 。 因 此 ， 设 定 
L;,7 max( Lj- 1,4, Li 4-1), WA xj-1 A Ve-1 
我 们 注意 到 : 因为 切片 Y[0: 0] 是 空 字符 串 ,， Lo=0, j=0, 1, c, n; 类 似 地 ， 因 为 
切片 [0: 0] 是 空 字 符 串 ，Zok= 0， 其 中 上 = 0，1，…，71ao 
LCS 算法 
万 + 满足 子 问题 优化 的 定义 ， 因 为 既 没 有 最 长 公共 子 序 列 ， 也 没有 子 问题 的 最 长 公共 子 
序列 。 此 外 ， 它 使 用 子 问 题 重 复 ， 因 为 子 问题 解决 方案 厂 上 可 以 在 一 些 其 他 的 问题 中 使 用 
(BMPR Lj cse. Lire M Ljerke) 将 LL4 的 定义 转变 为 一 个 算法 实际 上 非常 简单 。 我 们 创 
建 一 个 (n+1) x (m+1) RHL, EX 0j  nJjfROs k « m, 初始 化 所 有 项 为 0， 
特意 使 形式 Li o M Lo 的 所 有 项 为 0， 然 后 反复 地 建立 工 的 值 直 至 得 到 XX 和 了 的 最 长 共同 子 
序列 的 长 度 L, ，。 这 个 算法 的 Python 实现 在 代码 段 13-6 中 给 出 。 


代码 段 13-6 LCS 问题 的 动态 规划 算法 


| def LCS(X, Y): 

2  """Return table such that L[j][k] is length of LCS for X[0:j] and Y[0:k]." "" 

3 n, m — len(X), len(Y) # introduce convenient notations 
4  L-[[0]* (m+1) for kin range(n+1)] — s (n--1) x (m1) table 

5 for j in range(n): 

6 for k in range(m): 


7 if X[] == Y[k]: # align this match 

8 bea] = =LD][k +1 

9 else # choose to ignore one character 
10 Lj+I][k+1] = = max(L[j][k4-1], L[j+1][k]) 

ll return L 


LCS $t 1E fjis ER AD AT, ANE APA CES TE Hil, SRIENE nix, 
内 部 循环 迭代 m 次 。 因 为 每 个 循环 内 的 站 语 句 和 分 配 需 要 OC) 的 基本 操作 ， 所 以 这 个 算法 
的 运行 时 间 为 O(nm)。 因 此 ， 动 态 规 划 技 术 可 运用 于 最 长 共同 子 序列 问题 ， 并 通过 LCS 问 
题 的 指数 时 间 的 蛮 力 解决 方案 得 到 显著 改善 。 

代码 段 13-6 的 LCS 图 数 计 算 了 最 长 公共 子 序 列 的 长 度 GOW Lim), (AREF PSI A 
己 。 幸 运 的 是 ， 如 果 通 过 LCS MATH HORN L 的 值 完全 列 在 一 张 表 中 ， 则 提取 实际 最 
长 公共 子 序列 是 很 容易 的 。 该 解决 方案 通过 逆向 进行 长 度 Ln, m 的 估算 可 以 从 后 往 前 地 重建 。 
TEE MB Li, 如 果 交 = 其 ， 则 基于 在 公共 的 字符 六 之 前 的 长 度 石 -ut-i 的 公共 子 序列 的 
长 度 。 可 以 将 记 作为 子 序 列 的 一 部 分 ， FADA L-i- RHETT. WMR x AY, MAT 
DAB Lie) 和 五- 中 较 大 的 一 个 。 我 们 继续 上 述 过 程 HIRA La 0 (例如 , | MA 
大 是 0 作为 边界 的 情况 )。 这 一 策略 的 Python 实现 在 代码 段 13-7 中 给 出 。 这 个 函数 构造 了 
在 O(n + m) 的 附加 时 间 里 构建 了 一 个 最 长 的 公共 子 序列 ， 因 为 无 论 7 或 者 上 (或 者 两 个 都 )， 
while 循环 的 每 次 执行 都 会 递减 。 计 算 最 长 公共 子 序列 算法 的 说 明 如 图 13-8 所 示 。 

代码 段 13-7 ”最 长 公共 子 序列 的 重建 


| def LCS.solution(X, Y, L): 
2  """Return the longest common substring of X and Y, given LCS table L.""" 
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| solution = [ ] 

4 jkc-len(X), len(Y) 

5 while L[j][k] > 0: # common characters remain 
6 — ifX[-1] == Y[k-1]: 

7 solution.append(X[j—1]) 

8 je 

9 k——1 
10 elif L[j—1][k] >= L[][k-1]: 
11 es 


12 else: 
13 k ——1 
l4 return ' ' join(reversed(solution)) # return left-to-right version 



































图 13-8 ”从 数组 工 中 重建 最 长 公共 子 序列 算法 的 说 明 。 在 着 重 显示 路 径 上 的 对 角 线 步骤 代表 公共 字符 
的 使 用 〈 在 序列 中 字符 的 各 指标 在 边缘 着 重 显示 ) 


13.4 文本 压缩 和 贪心 算法 


本 节 讨 论 一 个 重要 的 文本 处 理 任务 一 一 文本 压缩 。 在 这 个 问题 中 ,我 们 给 定 一 个 由 一 些 
字母 组 成 的 字符 串 ， 例 如 选用 ASCII 或 者 Unicode 字符 集 ， 此 外 ， 我 们 想 高 效 地 将 编码 
成 一 个 很 小 的 二 进 制 字符 串 Y ( 仅 使 用 字符 0 和 1 )。 当 希望 降低 数字 通信 的 带宽 时 ， 文 本 压 
缩 是 非常 有 用 的 ， 这 样 做 可 以 减少 传输 文本 所 需 的 时 间 。 同 样 ， 文 本 压缩 可 以 更 有 效 地 存储 
大 文档 ， 这 样 做 可 以 允许 一 个 固定 容量 的 存储 装置 尽 可 能 地 包含 更 多 的 文件 。 

本 节 探 讨 的 文本 压缩 方法 是 霍 夫 曼 编码 。 标 准 的 编码 方案 (例如 ASCII) 是 使 用 固定 长 
度 的 二 进 制 字符 串 去 编码 字符 (在 传统 的 或 者 扩展 的 ASCI 系统 中 分 别 用 7 位 或 者 8 位 来 纺 
码 )。Unicode 系统 最 初 由 16 位 固定 长 度 来 表示 ， 然 而 常见 的 编码 通过 允许 公共 组 字符 ( 例 
如 那些 来 自 ASCII 系统 ， 由 更 少 位 编码 的 字符 ) 来 减少 空间 的 使 用 。 霍 夫 曼 编码 在 有 固定 长 
度 的 编码 情况 下 ， 使 用 短 码 字符 串 对 高 频 字 符 进行 编码 ， 并 用 长 码 字 符 串 对 低频 字符 进行 编 
码 ， 以 节省 空间 。 另 外 ， 霍 夫 曼 编 码 充分 使 用 一 个 可 变 长 度 的 编码 对 任何 字母 表 上 给 出 的 字 
符 串 了 进行 编码 。 基 于 对 字符 频率 的 使 用 进行 优化 ， 其 中 ， 对 于 每 个 字符 c, 计数 tc) 是 c 
出 现在 字符 串 苞 中 的 次 数 。 

为 了 对 字符 串 雹 进行 编码 ， 我 们 将 式 中 的 每 一 个 字符 转换 为 一 个 可 变 长 度 编码 文字 ， 
并 且 为 了 减少 Y 对 XX 的 编码 ， 我 们 联结 所 有 编码 文字 。 为 了 避免 产生 歧义 ， 应 确保 在 编码 
中 没有 任何 编码 文字 是 另 一 个 编码 文字 的 前 缀 。 这 样 的 代码 被 称 为 前 缀 码 ， 并 且 为 了 检索 六 
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而 简化 了 了 的 解码 ( 见 图 13-9 )。 即 使 有 这 样 的 限制 ， 由 可 变 长 度 的 前 绥 码 产生 的 节省 也 是 
十 分 显著 的 ， 尤 其 是 在 的 字符 频率 差异 较 大 的 情况 下 (如 自然 语言 文本 在 所 有 书面 语言 中 的 
情况 )。 











图 13-9. FIF X = "a fast runner need never be afraid of the dark" HÆR iiho a) X 中 每 个 字符 的 
频率 ; b) FAR X BECK SERE To FE c 的 编码 是 由 根 节点 了 和 存储 c 的 叶子 节点 之 间 的 跟 
踪 路 径 得 到 的 ， 并 且 用 0 关联 左 孩 子 节点 ， 用 1 关联 右 孩 子 节点 。 例 如 ,“Fr” 的 编码 是 O11, 
“h” 的 编码 是 10111 


霍 夫 曼 算 法 对 工 产 生 的 最 优 可 变 长 度 前 缀 码 ， 是 基于 代表 该 代码 的 二 进 制 树 了 的 建立 。 
了 的 每 一 条 边 代 表 代码 字 的 一 位 ， 到 左 孩 子 节点 的 那 条 边 代 表 “0”， 到 右 孩 子 节点 的 那 条 边 
代表 “1”。 每 一 个 叶子 v 和 一 个 特殊 的 字符 相关 联 ， 并 且 该 字符 的 代码 字 由 与 从 了 的 根 到 
v 之 间 的 边 相 关联 的 位 的 子 序列 定义 ( 见 图 13-9 )。 每 个 叶子 ”有 一 个 频率 fv), EMME X 
中 与 vy 相关 联 字符 的 频率 。 另 外 ,我 们 给 7 中 的 每 一 个 内 部 节点 v 一 个 频率 Jtv)， 它 是 以 v 
为 根 的 子 树 中 所 有 叶子 的 频率 的 总 和 。 


13.4.1 霍 夫 曼 编码 算法 


霍 夫 曼 编码 算法 将 字符 串 天 的 每 个 不 同 字符 4 解码 成 一 个 单 节点 的 二 进 制 树 的 根 节点 。 
该 算法 会 执行 很 多 轮 。 在 每 一 轮 ， 该 算法 取 两 个 具有 最 小 频率 的 二 进 制 树 ， 然 后 把 它们 合并 
为 一 棵 二 进 制 树 。 重 复 这 一 过 程 ， 直 到 只 有 一 棵 树 〈 见 代码 段 13-8 )。 


KBR 13-8 ” 霍 夫 曼 编码 算法 
Algorithm Huffman(X): 

Input: String X of length n with d distinct characters 
Output: Coding tree for X 
Compute the frequency f(c) of each character c of X. 
Initialize a priority queue Q. 
for each character c in X do 

Create a single-node binary tree T storing c. 

Insert T into Q with key f(c). 
while len(Q) > 1 do 

(fi, 3) = Q.remove_min() 

(f2,T2) = Q.remove. min() 
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Create a new binary tree T with left subtree 7; and right subtree 7. 
Insert T into Q with key f, + f. 

(f, T) = Q.remove. min() 

return tree T 


牌 夫 曼 算法 的 每 一 个 while 循环 的 迭代 通过 使 用 由 堆 表 示 的 优先 队列 在 O(log d) 时 间 内 
实现 。 另 外 ， 每 个 迭代 从 Q 中 取出 两 个 节点 并 且 向 Q 中 添加 一 个 节点 ， 在 正好 一 个 节点 被 
留 在 0 之 前 ,程序 将 会 重复 4d - 1 次 。 因 此 ， 这 个 算法 运行 时 间 为 O(n + dlog d) RAK 
于 这 个 算法 的 正确 性 的 全 部 验证 不 在 本 书 所 述 范围 之 内 ， 但 是 需要 注意 ， 它 的 灵感 来 自 一 
个 简单 的 想法 一 一 任何 一 个 最 佳 的 节点 可 以 被 转换 为 对 两 个 最 不 频繁 的 字母 a 和 4b 的 code- 
words， 仅 仅 在 它们 的 最 后 一 个 比特 不 同 的 最 理想 的 节点 。 对 一 个 有 a 并 且 尹 被 替换 为 c 的 字 


命题 13-5: 霍 夫 曼 算法 为 一 个 长 度 为 n 并 且 有 4d 个 不 同 字 符 的 字符 串 构造 一 个 最 优 的 
前 级 代码 的 时 间 复 杂 度 为 O (n+ d log a). 


13.4.2 ”贪心 算法 


用 于 构建 最 优 编码 的 霍 夫 曼 算法 是 贪心 算法 的 设计 模式 示例 之 一 。 这 个 设计 模式 应 用 于 
优化 问题 ， 我 们 试图 在 最 小 化 或 者 最 大 化 该 结构 的 一 些 特性 的 时 候 构造 一 些 结构 。 

贪心 算法 模式 的 一 般 公 式 和 蛮 力 方法 的 几乎 一 样 简单 。 为 了 使 用 贪心 算法 解决 给 出 的 优 
化 问题 ， 我 们 选择 一 个 序列 进行 。 序 列 从 一 些 很 好 理解 的 开始 条 件 开 始 ， 然 后 计算 那些 初始 
条 件 的 花费 。 这 个 模式 要 求 通过 识别 从 所 有 当前 可 能 的 选择 中 实现 最 优 成 本 改善 的 决定 来 迭 
代 地 做 出 附加 的 选择 。 这 个 方法 并 不 总 能 产生 最 优 的 解决 方案 。 

但 是 有 几 个 问题 是 可 以 解决 的 ， 并 且 这 些 问 题 可 以 说 都 具有 贪心 选择 的 特性 ， 即 全 局 
最 优 的 性 质 可 以 通过 一 系列 局 部 最 优选 择 来 实现 〈 即 选择 是 当时 可 用 的 可 能 性 之 中 每 一 个 当 
前 最 优 的 选择 )。 计 算 最 优 可 变 长 度 的 前 级 代码 的 问题 只 是 具有 贪心 选择 特性 的 问题 的 示例 
a 


13.5 字典 树 


13.2 节 的 模式 匹配 算法 通过 对 模式 进行 预 处 理 来 加 速 在 文本 中 的 搜索 (在 KnuthMorris- 
Pratt 算法 中 计算 失败 函数 或 者 在 Boyer-Moore 算法 中 计算 最 后 函数 )。 本 节 采 取 了 一 个 互补 的 
方法 ， 即 呈现 了 预 处 理 文本 的 字符 串 搜 寻 算 法 。 这 个 方法 非常 适合 对 一 个 固定 文本 执行 一 系 
列 请 求 的 应 用 ， 因 此 预 处 理 文本 的 原始 花费 通过 在 每 个 随后 的 查询 中 加 速 来 获得 补偿 (例如 ， 
对 莎士比亚 的 《哈姆雷特 》 提 供 模 式 匹配 的 网 站 或 者 提供 关于 “哈姆雷特 ”主题 的 搜索 引擎 )。 

字典 树 是 为 了 支持 最 快 模式 匹配 的 存储 字符 串 的 基于 树 的 数据 结构 。 字 上 典 树 主要 应 用 于 
信息 检索 中 。 事 实 上 ， 名 字 “ tries ”来 自 于 单词 “ retrieval”。 在 信息 检索 应 用 中 ， 例 如 在 
一 个 染色 体 组 的 数据 库 中 搜索 一 个 确定 的 DNA 序列 ,我们 已 经 得 到 了 字符 串 的 集合 S$， 所 
有 定义 使 用 了 相同 的 字母 表 。 字 典 树 支持 的 主要 查询 操作 是 模式 匹配 和 前 组 匹配 。 接 下 来 的 
操作 为 : 给 定 一 个 字符 串 人， 查找 以 作为 前 缀 的 所 有 在 S 中 的 字符 串 。 


13.5.1 标准 字典 树 


令 8 为 一 个 来 自 字 母 表 X 的 8 个 字符 串 的 集合 ， 而 且 5 中 的 字符 串 不 是 其 他 字符 串 的 
前 级 。5 的 标准 字典 树 是 一 棵 具有 下 列 特性 的 有 序 树 T ( 见 图 13-10 ): 
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e 除了 根 之 外 的 了 的 每 个 节点 ， 都 用 > 中 的 字符 作 标 签 。 

e 了 的 内 部 节点 的 孩子 节点 有 不 同 的 标签 。 

e TEs 个 叶子 节点 ， 每 个 叶子 节点 和 8 中 的 一 个 字符 串 相 关联 ， 从 根 到 了 的 一 个 叶子 

节点 7 的 路 径 的 标签 的 串联 产生 了 和 v 相关 联 的 S 的 字符 串 。 

因此 ， 一 棵 字典 树 表 示 拥 有 从 根 
到 了 的 叶子 路 径 的 SS 的 字符 串 。 需 要 
注意 的 是 ，5 中 没有 一 个 字符 串 是 另 
个 字符 串 的 前 级 ， 这 一 点 非常 重要 。 它 
确保 了 5 的 每 个 字符 串 和 7 中 的 一 个 
叶子 是 唯一 相关 联 的 (这 和 13.4 节 描 
述 的 霍 夫 曼 编码 的 前 级 代码 的 限制 是 类 
似 的 )。 我 们 总 是 可 以 通过 在 每 个 字符 
串 的 末尾 添加 一 个 不 在 原始 的 字母 表 
> 中 的 特殊 字符 来 满足 这 个 假设 。 

一 棵 标准 字典 树 的 内 部 节点 可 以 
在 任何 地 方 有 1 — || 个 孩子 节点 。 对 每 个 在 集合 5 中 的 字符 串 的 第 一 个 字符 来 说 ， 都 有 一 
条 从 根 节点 7 到 它 的 其 中 一 个 孩子 节点 的 边 。 此 外 ， 从 7 了 的 根 节点 到 深度 为 k 的 内 部 节点 v 
之 间 的 路 径 相当 于 S 的 一 个 字符 串 匹 的 大 字符 前 组 工 [0: 昌 。 

事实 上 ， 对 每 个 可 以 跟随 S$S 集 合 的 字符 串 中 的 前 级 X[0: 和 ] 的 字符 c， 有 一 个 用 字符 c 
作 标签 的 v 的 孩子 节点 。 这 样 ， 字 典 树 就 简明 地 存储 了 存在 于 一 系列 的 字符 串 之 间 的 共同 
前 级。 

作为 一 种 特殊 情况 ， 如 果 在 字母 表 中 仅 有 两 个 字符 ， 那 么 字典 树 本 质 上 是 一 棵 二 进 制 
树 ， 它 可 能 仅 包 含 一 个 孩子 节点 的 一 些 内 部 节点 ( 即 它 可 能 是 一 棵 不 标准 的 二 进 制 树 )。 一 
般 来 说 ， 尽 管 一 个 内 部 节点 可 能 最 多 能 有 || 个 孩子 ,但 实际 上 这 样 的 节点 的 平均 度数 可 能 
会 更 小 。 例 如 ， 图 13-10 中 的 字典 树 有 一 些 仅 包含 一 个 孩子 节点 的 内 部 节点 。 在 更 大 的 数据 
集合 中 ， 节 点 的 平均 度数 可 能 在 更 大 深度 的 树 中 会 更 小 ， 因 为 可 能 会 有 更 少 的 分 享 共同 前 级 
的 字符 串 ， 所 以 该 模式 会 有 更 少 的 延续 。 此 外 ， 在 更 多 的 语言 中 ， 将 会 有 不 可 能 自然 发 生 的 
字符 组 合 。 

接 下 来 的 命题 提供 了 一 些 关 于 标准 字典 树 的 重要 的 结构 特性 。 

命题 13-6 : 一 个 存储 来 自 字 母 表 的 总 长 度 为 n 的 s 个 字符 串 的 集合 5S 的 标准 字典 树 
有 以 下 的 特性 : 

e 了 的 高 度 和 3 中 最 长 的 字符 串 的 长 度 相等 。 

e 本 的 每 个 内 部 节点 至 多 有 || 个 孩子 。 

e T s^ x. 

e 了 的 节点 的 数目 至 多 是 1+1。 

对 于 字典 树 节点 的 数目 而 言 ， 最 坏 的 情况 发 生 在 没有 两 个 字符 串 分 享 一 个 共同 的 非 空前 
缀 时 ， 即 除了 根 节点 ， 所 有 内 部 节点 都 只 有 一 个 孩子 节点 。 

字符 串 的 集合 S 的 一 棵 字典 树 T 可 以 用 来 实现 主键 是 5 的 字符 串 的 集合 或 者 图 。 也 
就 是 说 ， 我 们 通过 追踪 由 式 中 的 字符 指示 的 从 根 开 始 的 路 径 ， 在 了 中 对 字符 串 工 执行 
搜索 。 如 果 该 路 径 可 以 被 追踪 并 且 在 一 个 叶子 节点 结束 ， 那么 X 是 图 的 主键 。 例 如 ， 在 








图 13-10 字符 串 {bear, bell, bid, bull, buy, sell, stock, stop} 
的 标准 字典 树 
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图 13-10 的 字典 树 中 ,追踪 “ bull” 的 路 径 在 一 个 叶子 节点 结束 。 如 果 路 径 不 能 被 追踪 或 者 
路 径 能 被 追踪 但 是 在 一 个 内 部 节点 结束 ， 那 么 和 不 是 图 的 主键 。 在 图 13-10 所 示 的 例子 中 ， 
对 “bet” 的 路 径 不 能 被 追踪 并 且 对 “be” 的 路 径 在 一 个 内 部 节点 结束 。 在 图 中 没有 这 样 的 
单词 。 

可 以 很 容易 地 知道 搜索 长 度 为 m 的 字符 串 所 需 的 运行 时 间 为 Om * |3|)， 因 为 我 们 访 
问 了 至 多 m + 1 个 了 的 节点 ,并 且 在 每 个 节点 上 确定 骇 子 节点 有 后 续 字符 作为 标签 所 花费 的 
时 间 是 O(| Z|). FE O(| =|) 的 上 限时 间 内 去 定位 一 个 具有 给 定 标签 的 孩子 节点 是 可 以 实现 的 ， 
即使 一 个 节点 的 孩子 节点 是 无 序 的， 因为 至 多 有 || 个 孩子 节点 。 可 以 将 花费 在 一 个 节点 上 
的 时 间 提 高 到 O(log| E |) 或 者 期 望 的 O(1)( 如 果 1Y| 非 常 小 (就 像 DNA 字符 串 的 情况 一 样 ))， 
方法 是 对 每 一 个 节点 使 用 一 个 次 级 搜索 表 或 者 哈 希 表 ， 或 者 对 每 一 个 节点 使 用 一 个 大 小 是 
| X | 的 有 向 查阅 表 将 字符 映射 到 孩子 节点 。 因 为 这 些 原 因 ， 通 常 预计 搜索 一 个 长 度 为 六 的 字 
符 串 的 运行 时 间 是 O(m)。 

综 上 所 述 ， 我 们 可 以 使 用 一 棵 字典 树 去 执行 模式 匹配 的 特殊 类 型 ， 这 称 为 词汇 匹配 ， 即 
判定 一 个 给 定 的 模式 是 否 能 正确 地 匹配 文本 中 的 一 个 单词 。 词 汇 匹 配 和 标准 模式 匹配 有 所 
不 同 ， 因 为 模式 不 能 匹配 文本 的 任意 一 个 子 串 一 一 仅 匹配 单词 的 其 中 一 个 。 为 了 实现 词汇 匹 
配 ， 原 始 文献 的 每 个 单词 必须 都 加 到 字典 树 中 〈 见 图 13-11 )。 这 个 方案 的 简单 扩展 支持 前 级 
匹配 的 查询 。 然 而 ， 文 本 中 模式 的 随机 发 生 (例如 ， 模式 是 单词 的 正确 的 前 组 或 者 跨越 两 个 
单词 ) 不 能 高 效 执行 。 
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17, 40, 51, 62 


b) 

图 13-11 标准 字典 树 的 词汇 匹配 : a) 被 搜索 的 文本 (文章 和 介词 ， 也 称 为 禁用 词 ); b) 在 文本 中 单词 
的 标准 字典 树 ， 给 定 的 单词 在 开始 工作 的 索引 中 突出 显示 了 叶子 节点 。 例 如 单词 stock 节点 
的 叶子 ， 单 词 在 文本 的 索引 17、40、51 和 62 处 开始 
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为 了 构建 一 个 字符 串 集 合 5 的 标准 字典 树 ， 可 以 使 用 一 次 插入 一 个 字符 串 的 增 量 算法 。 
回想 5S 中 的 字符 串 没有 一 个 是 另 一 个 字符 串 的 前 缀 的 假设 ,为 了 在 当前 字典 树 了 中 插入 一 
个 字符 串 半 ， 和 追踪 在 了 中 和 半 相 关联 的 路 径 ， 当 陷入 伪 局 的 时 候 创建 一 个 新 的 节点 链 去 存储 
X RAE TES d ALI BEA m 的 的 运行 时 间 和 搜索 时 间 类 似 ， 最 坏 情况 下 时 间 复 杂 度 为 
O(m = |S), 或 者 如 果 对 每 个 节点 使 用 次 级 哈 希 表 ， 则 期 望 时 间 为 Om) KE, X) SEAH 
建 完整 的 字典 树 花费 了 期 望 的 O(n) 时 间 ， 其 中 是 5 的 字符 串 的 总 长 度 。 

标准 字典 树 潜在 的 空间 效率 低下 促进 了 压缩 字典 树 的 发 展 。 压 缩 字典 树 (因为 历史 的 原 
因 ) 也 称 为 基数 树 ， 即 在 只 有 一 个 孩子 节点 的 标准 字典 树 中 可 能 有 许多 节点 ， 并 且 这 种 节点 
的 存在 是 浪费 的 。 接 下 来 讨论 压缩 字典 树 。 


13.5.2 ”压缩 字典 树 


压缩 字典 树 和 标准 字典 树 类 似 ， 但 是 它 确 保 字 典 树 中 的 每 个 内 部 节点 至 少 有 两 个 孩子 节 
点 。 它 通过 压缩 单个 孩子 节点 的 链 为 单条 边 执行 规则 ( 见 图 13-12 )。 定 义 了 是 一 个 标准 字 
典 树 。 如 果 了 的 一 个 内 部 节点 ”> 有 一 个 孩子 节点 并 且 不 是 根 节点 ， 则 说 是 多 余 的。 例如 ， 
图 13-10 的 字典 树 有 8 个 多 余 的 节点 。 同 样 ， 对 于 大 = 2 条 边 的 链 ， 

(Vo, vi)(vi, v3): (va- i, Ve) 
BRN, WR: 
o XF i=l, k-1, vi 是 多 余 的 。 
e vo 和 vi 不 是 多 余 的 。 





图 13-12 字符 串 {bear, bell, bid, bull, buy, sell, stock, stop} 的 压缩 字典 树 (将 该 表 和 图 13-10 所 示 的 
标准 字典 树 进 行 比较 )。 除 了 在 叶子 节点 的 压缩 ， 请 注意 有 标签 的 内 部 节点 被 stock 和 stop 
这 两 个 单词 分 享 


可 以 通过 将 每 个 多 余 的 有 上 = 2 条 边 的 链 (vo, vV v -i Ve) 替换 为 一 条 单独 的 边 
(vo, yb)， 并 用 节点 vi,…, v 的 标签 的 串联 来 重新 标记 w， 来 将 了 转变 为 一 个 压缩 字典 树 。 

因此 ， 压 缩 字典 树 的 节点 用 字符 串 作 标签 ， 这 些 字符 串 是 集合 中 的 子 字符 串 或 者 字符 
tB, ， 而 不 是 用 单独 的 字符 。 压 缩 字典 树 相 对 于 标准 字典 树 的 优势 是 节点 的 数目 和 字符 串 的 数 
目 成 正比 ， 而 不 是 和 总 长 度 成 正比 ， 如 命题 13-7 所 述 。 

命题 13-7 : 存储 大 小 为 d 的 取 自 字母 表 的 8 个 字符 串 的 集合 8 的 压缩 字典 树 有 以 下 
特性 : 

e 了 的 每 个 内 部 节点 至 少 有 两 个 孩子 节点 ， 至 多 有 4d 个 孩子 节点 。 

e TASH HFT AR. 

e 了 的 节点 的 数目 是 Os). 

细心 的 读者 可 能 想 知 道路 径 的 压缩 是 否 有 某 种 显著 优势 ， 因 为 它 被 相应 节点 标签 的 扩充 


X KR 395 








所 抵消 了 。 事 实 上 ， 压 缩 字 典 树 仅 当 在 已 经 存储 在 基本 结构 中 的 字符 串 集合 之 上 作为 辅助 索 
引 结构 ， 以 及 不 需要 实际 存储 在 集合 中 的 字符 串 的 所 有 字符 时 才 有 优势 。 

假设 字符 串 的 集合 5 是 字符 串 S[0], SU] …, Sis- 1] 的 数组 。 不 是 显 式 地 存储 节点 的 标 
SX, MESA (i, jik) 的 组 合 隐 式 地 表示 它 ， 就 像 和 = Spp:k). WX EAB 
以 后 但 不 包含 第 个 字符 的 S[i] 的 切片 ( 见 图 13-13 的 例子 。 同 样 和 图 13-11 的 标准 字典 树 
进行 比较 )。 


0 12 3 4 Oi 2 3 i253 
St] - [ s [e [ e] st] - [e u[1[1] sm-[n[e[a]«] 
su-[»[e[a| z| sii-[»[s] v] sil-[»[e] 2] 1| 
sgi- [sje] 1] 1] S6 - [»[ [ a] s9=|s|t]o] e] 


s3]=[s| t] of ¢] k| 





图 13-13 a) 存储 在 一 个 数组 中 的 字符 串 的 集合 S; b) S 的 压缩 字典 树 的 简单 表示 


这 个 附加 的 压缩 方案 将 空间 复杂 度 从 O(n) 降低 到 了 Ol), 其 中 是 5 中 字符 串 的 总 长 
BE, 并 且 s 是 5 中 字符 串 的 总 数目 。 我 们 必须 仍旧 存储 5 中 的 不 同 字符 串 ， 当 然 这 并 没有 降 
低 字 典 树 的 空间 复杂 度 。 

在 压缩 字典 树 中 搜索 不 一 定 比 在 标准 字典 树 中 更 快 ， 因 为 在 字典 树 中 遍历 路 径 时 ,仍旧 
需要 比较 期 望 模 式 的 每 个 字符 和 潜在 的 多 字符 标签 。 


13.5.3 “后缀 字典 树 


字典 树 主要 应 用 于 集合 8 中 的 字符 串 都 是 字符 串 民 的 后 缀 的 情况 。 这 样 的 字典 树 称 
为 字符 串 针 的 后 组 字典 树 (又 称 为 后 组 树 或 者 位 置 树 )。 例 如 ， 图 13-14a 展示 了 字符 串 
“minimize” 8 个 后 级 的 后 级 字典 树 。 对 于 一 棵 后 级 字典 树 ， 上 一 节 提 出 的 结构 进一步 简化 。 
也 就 是 说 ， 每 个 顶点 的 标签 是 一 对 指示 字符 串 民 大 如 的 Gi, k) CLE 13-14b)。 为 了 满足 的 
后 级 都 不 是 男 一 个 后 缀 的 前 级 这 一 规则 ， 可 以 增加 一 个 用 $ 表示 的 特殊 字符 ， 它 在 蕊 的 最 后 
但 不 在 原始 的 字母 表 X 中 (同时 对 每 个 后 缀 来 说 )。 也 就 是 说 ， 如 果 字 符 串 匀 的 长 度 为 n， 
WW n 个 字符 串 XX[j:n] 的 集合 建立 一 个 字典 树 ， 其 中 j= 0,…,n 一 1。 

节省 空间 

后 缀 字典 树 允 许 我 们 通过 使 用 一 些 空间 压缩 技巧 (包括 为 压缩 字典 树 使 用 的 技巧 )， 在 
一 个 标准 字典 树 上 节省 空间 。 

现在 ,字典 树 的 简明 表示 的 优势 对 后 级 字典 树 变 得 明显 。 因 为 长 度 为 n A SEE BX AY 
后 级 的 总 长 度 为 


1+2+*…+n=n(n+ 1)/2 





012385287 
im[i [n i [m[i|z]e] 
b) 


图 13-14. a) ZIF X =“ minimize ”的 后 级 字典 树 T ; b) 7 的 简单 表示 ， 
HP jk IRRI AFRE PI Xp] 


所 以 显 式 存储 XX 的 所 有 后 级 会 花费 Om) 的 空间 。 即 便 如 此 ， 后 级 字典 树 也 在 O(n) 的 
空间 内 隐 式 地 表示 了 这 些 字符 串 ， 如 命题 13-8 所 述 。 

命题 13-8: 长 度 为 n 的 字符 事 钱 的 后 缀 字典 树 的 简明 表示 使 用 了 O(n) 的 空间 。 

构造 

可 以 像 13.5.1 节 给 出 的 那样 使 用 递增 算法 为 长 度 为 n 的 字符 串 建立 后 级 字典 树 。 这 个 
构造 花费 了 O( Xm) 的 时 间 ， 因 为 后 缀 的 总 长 度 是 n 的 平方 。 然而， 长 度 为 n 的 字符 串 的 
后 缀 字典 树 可 以 用 不 同 于 一 般 字 典 树 的 递增 算法 在 O(n) 时 间 内 创建 。 这 个 线性 时 间 构 造 算 
法 非常 复杂 ， 这 里 不 做 讨论 。 但 是 在 使 用 一 个 后 级 字典 树 去 解决 其 他 问题 时 ， 仍然 可 以 利用 
这 个 快速 构造 算法 的 优点 去 实现 。 

TARAFA 

字符 串 苞 的 后 缀 字典 树 了 可 用 于 在 文本 无 上 高 效 地 执行 模式 匹配 查询 。 也 就 是 说 ， 可 
以 通过 追踪 在 7 中 与 P 相 关联 的 路 径 来 确定 模式 PP 是否 是 的 子 串 。P 是 XX 的 一 个 子 串 一 一 
当 且 仅 当 追踪 到 这 样 的 路 径 时 。 在 字典 树 7 上 执行 的 搜索 假设 了 中 的 节点 存储 了 一 些 附 加 的 
信息 ， 关 于 后 级 字典 树 的 简明 表示 有 : 

如 果 节 点 v 有 标签 (j,k)， 并 且 了 是 与 从 根 到 v (包括 ) 的 路 径 相 关联 的 长 度 为 了 的 字符 
P, #2 X[k-y:k] = Y, 

这 个 特性 确保 匹配 发 生 时 容易 计算 文本 中 该 模式 的 开始 索引 。 


13.5.4 搜索 引擎 索引 


万 维 网 是 包含 了 文本 文献 (网页) 的 巨大 集合 。 关 于 这 些 网 页 的 信息 由 称 为 网 络 爬 虫 的 
程序 汇聚 起 来 ， 可 以 将 这 些 信息 存储 在 一 个 特别 的 字典 数据 库 里 。 网 络 搜索 引擎 允许 用 户 从 
这 个 数据 库 里 检索 相关 信息 ， 从 而 在 包含 给 定 关键 词 的 网 络 中 识别 相关 页 面 。 本 节 将 呈现 一 
个 搜索 引擎 的 简易 模型 。 
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反 序 文件 

存储 核心 信息 的 搜索 引擎 是 字典 ， 叫 作 反 序 索 引 或 者 反 序 文件 ， 存 储 主键 - 值 的 对 〈w， 
Z)， 其 中 图 是 一 个 单词 , 工 是 包含 单词 w 的 页 面 的 集合 。 这 个 字典 中 的 主键 (单词 ) 称 为 索 
引 词 ， 并 且 应 该 成 为 一 个 尽 可 能 大 的 词汇 条 目 和 专 有 名 词 的 集合 。 这 个 字典 中 的 元 素 称 为 出 
现 列 表 ， 并 且 应 该 覆盖 尽 可 能 多 的 网 页 。 

可 以 用 包含 以 下 特点 的 数据 结构 高 效 地 实现 一 个 反 向 索引 : 

e 一 个 存储 元 素 出 现 列表 的 数组 (无 先后 顺序 )。 

e 索引 词 集合 的 压缩 字典 树 的 每 个 叶子 节点 存储 着 相关 词 的 发 生 列 表 的 索引 。 

之 所 以 在 字典 树 之 外 存储 出 现 列表 ， 是 为 了 使 字典 树 数据 结构 的 大 小 保持 足够 小 以 适应 
内 存 。 相 反 ， 因 为 它们 总 的 大 小 过 大 ， 所 以 出 现 列表 必须 存储 在 硬盘 上 。 

根据 这 种 数据 结构 ， 对 单个 关键 词 的 查询 和 单词 匹配 查询 类 似 (13.5.1 节 )。 也 就 是 说 ， 
在 字典 树 中 找到 了 关键 词 并 且 返 回 了 关联 发 生 列表 。 

当 多 个 关键 词 给 出 并 且 期 望 的 输出 是 包含 所 有 给 定 关键 词 的 页 面 时 ， 使 用 字典 树 检 索 每 
个 关键 词 的 出 现 列表 并 且 返 回 它 们 的 交集 。 为 了 使 交集 的 计算 变 得 容易 ， 人 允许 高 效 地 设置 操 
作 ， 每 个 发 生 列 表 应 该 用 被 地 址 或 者 地 图 分 类 过 的 序列 来 实现 。 

除了 返回 包含 给 定 关 键 词 的 页 面 列表 这 一 基本 任务 之 外 ， 搜 索引 擎 还 有 一 项 重要 的 附加 
服务 ， 即 通过 对 按照 相关 性 返回 的 页 面 进行 排名 。 对 计算 机 研究 者 和 电子 商务 公司 来 说 为 搜 
索引 擎 设计 快速 而 准确 的 排名 算法 是 一 个 主要 挑战 。 


13.6 练习 
请 访问 www.wiley.com/college/goodrich 以 获得 练习 帮助 。 
巩固 


R-13.1 列 出 字符 串 P = "aaabbaaa" 的 前 级 和 后 级。 
R-13.2 字符 串 "cgtacgttcgtacg" 的 最 长 的 (适当 的 ) 前 级 同时 也 是 该 字符 串 的 后 缀 是 什么 ? 
R-13.3 请 画图 说 明 对 文本 "aaabaadaabaaa" 和 模式 "aabaa" 使 用 蛮 力 模式 匹配 所 进行 的 比较 。 
R-13.4 用 Boyer-Moore 算法 重复 先前 的 问题 ， 不 计算 last(c) 函数 进行 的 比较 计数 。 
R-13.5 用 Knuth-Morris-Pratt 算法 重复 练习 了 -13.3， 不 计算 失败 函数 进行 的 比较 计数 。 
R-13.6 在 模式 字符 串 中 对 字符 计算 代表 使 用 在 Boyer-Moore 算法 中 的 last 函数 的 映射 : 
"the quick brown fox jumped over a lazy cat", 
R-13.7. ”对 模式 字符 串 "cgtacgttcgtac" 计算 代表 Knuth-Morris-Pratt 失败 函数 的 表 。 
R-13.8 对 10x5、5x2、2x20、20x12、12x4 和 4x60 的 矩阵 链 进行 乘法 的 最 好 的 方式 是 什么 ? 
请 阐述 具体 过 程 。 
R-13.9 在 图 13-8 中 ，GTTAA 是 给 定 字符 串 和 了 的 最 长 的 公共 子 序列 。 然 而 ， 这 个 答案 不 是 唯一 
的 。 给 出 其 他 关于 蕊 和 了 的 长 度 为 6 的 公共 子 序列 。 
R-13.10 给 出 下 面 两 个 字符 串 的 最 长 公共 子 序 列 数组 也 : 
X = "skullandbones" 
Y = "lullabybabies" 
这 两 个 字符 串 的 最 长 公共 子 序 列 是 什么 ? 
R-13.11 画 出 下 列 字 符 串 的 频率 数组 和 霍 夫 曼 编码 : 


"dogs do not spot hot pots or cats". 
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R-13.12 


R-13.13 
R-13.14 


创新 
C-13.15 


C-13.16 
C-13.17 
C-13.18 


C-13.19 


C-13.20 
C-13.21 
C-13.22 


C-13.23 


C-13.24 


C-13.25 


C-13.26 


C-13.27 


C-13.28 


C-13.29 


第 13 章 


画 出 下 面 字符 串 集合 的 标准 字典 树 : 

(abab, baba, ccccc, bbaaa, caa, bbaacc, cbcc, cbcaj. 
画 出 先前 问题 中 给 出 的 字符 串 的 压缩 字典 树 。 
画 出 下 列 字 符 串 的 前 绥 字 典 树 的 简明 表示 : 


"minimize minime" 


描述 一 个 例子 : KEK n 的 文本 7T 和 长 度 为 m 的 模式 ， JE HERRI BESTE 93s TT Ta] 
达到 Q(nm)。 
为 了 实现 一 个 函数 rfind_brute(T, P)， 改 编 蛮 力 模式 匹配 算法 ， 该 函数 返回 了 一 个 索引 ， 该 案 
引 表 示 文 本 7 中 模式 最 右边 的 出 现 (如 果 有 的 话 )。 
重 做 上 面 的 练习 ， 改 编 Boyer-Moore 模式 匹配 算法 ， 以 正确 地 实现 函数 rfind_boyer_moore 
(T, P). 
HK C-13.16， 改 编 Knuth-Morris-Pratt 模式 匹配 算法 ， 以 正确 地 实现 男 数 rfind kmp(T, P). 
Python 的 str 类 的 计数 方法 报告 了 一 个 字符 串 中 一 个 模式 不 重合 出 现 的 最 大 次 数 。 例 如 ， 调 
JH 'abababa'.count('aba") 返回 2 (不 是 3 )。 改 编 蛮 力 模式 匹配 算法 以 实现 函数 count. brute(T, 
P)， 它 和 示例 有 一 样 的 结果 。 
重 做 上 面 的 练习 ， 改 编 Boyer-Moore 模式 匹配 算法 以 实现 函数 count boyer moore(T, P). 
重 做 C-13.19， 改 编 Knuth-Morris-Pratt 模式 匹配 算法 以 正确 地 实现 函数 count. kmp(T, P)。 
给 出 compute kmp fail 函数 ( 见 代 码 段 13.4) 对 长 度 为 m 的 模式 的 运行 时 间 为 Olm) 的 
理由 。 
设 7T 是 一 个 长 度 为 n 的 文本 , 设 P 是 一 个 长 度 为 m 的 模式 。 描 述 一 个 寻找 的 子 串 P 的 最 
长 前 级 并 且 时 间 为 O(n + m) 的 方法 。 
如 果 P 是 7 的 (正常 的 ) FR, 或 者 P 和 了 的 一 个 后 缀 和 7 的 一 个 前 缀 的 串联 相等 ， 即 有 一 
个 索引 0 zx k«m, W14 P = Tin -m + k:n] + T[G:k],. WED m 的 模式 P 是 长 度 n>m 的 文 
本 了 的 循环 子 串 ， 给 出 O(n + m) 时 间 的 判定 PP 是否 是 7 的 一 个 循环 子 串 的 算法 。 
Knuth-Morris-Pratt 模式 匹配 算法 可 以 通过 重 定义 失败 函数 使 得 改良 后 在 二 进 制 字符 串 上 运行 
得 更 快 ， 重 定义 的 失败 函数 为 : 

AA) 7 RAN j«k, (ET POJ] Pie P[k + 1] 的 后 级 
其 中 访 表 示 己 的 第 7 个 比特 的 补 集 。 试 描述 如 何 修改 KMP 算法 以 利用 这 个 新 函数 ， 并 且 同 
样 给 出 计算 这 个 失败 函数 的 方法 。 证 明 这 个 方法 在 文本 和 模式 之 间 至 多 进行 了 n 次 比较 (与 
在 13.2.3 节 给 出 的 需要 标准 KMP 算法 进行 2n 次 比较 截然 相反 )。 
修改 呈现 在 本 章 的 使 用 KMP 算法 思想 的 简化 版 Boyer-Moore 算法 ， 使 得 其 运行 时 间 为 
O(n +m). 
为 矩阵 链 乘法 问题 设计 一 个 高 效 的 算法 ， 目 标 是 使 用 最 少 的 操作 ， 要 求 输出 一 个 完整 的 加 上 
括号 的 表达 式 。 
澳大利亚 人 Anatjari 希望 穿越 沙漠 ， 他 只 拿 着 一 个 水 壶 ， 并 有 一 张 沿路 标记 了 所 有 水 洞 的 地 
图 。 假 设 有 一 壶 水 的 情况 下 他 能 走 丰 英里 ， 试 设计 一 个 高 效 的 算法 ， 判 定 在 尽 可 能 少 停顿 的 
情况 下 ，Anatjari 应 该 在 哪里 重新 装 满 水 谈 。 
为 了 使 用 最 少 的 硬币 来 完成 找 零 ， 试 描述 一 个 高 效 的 贪心 算法 。 假 设 有 四 种 硬币 的 面额 
(quarters, dimes, nickels 和 pennies)， 它 们 各 自 的 价值 为 23、10、5 和 1。 试 说 明 你 的 算法 
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正确 的 理由 。 

给 出 一 个 硬币 面额 集合 的 例子 ， 使 得 贪心 找 零 算法 将 无 法 使 用 硬币 的 最 小 数目 。 

在 艺术 画廊 守卫 问题 中 , 已 经 得 到 在 艺术 画廊 中 代表 一 条 长 走廊 的 线 KL， 还 得 到 一 个 在 这 条 
长 廊 进 行 喷绘 的 指定 位 置 的 真实 数字 的 集合 全 = {xo ,x1 ，…, Xx-1}， 假 设 一 个 守卫 可 以 保护 距 
离 他 至 多 为 1 的 距离 中 (两 边 都 可 以 ) 的 所 有 喷绘 。 试 设计 一 个 确定 守卫 位 置 的 算法 ， 其 中 
使 用 守卫 的 最 小 数目 去 防卫 在 X 位 置 中 的 所 有 喷绘 。 

设 P 是 一 个 凸 多 边 形 , P 的 三 角 训 分 是 指 连 接 P 的 顶点 的 对 角 线 的 增加 ， 每 个 内 部 的 面 是 一 
个 三 角形 。 三 角 训 分 的 权重 是 对 角 线 长 度 的 总 和 。 假 设 可 以 计算 长 度 并 且 在 固定 的 时 间 内 添 
加 和 比较 它们 ， 给 出 一 个 计算 P 的 三 角 训 分 的 最 小 权重 的 高 效 算法 。 

设 T 是 一 个 长 度 为 n 的 文本 字符 串 。 试 描述 一 个 寻找 7 的 最 长 前 缀 的 方法 ,7 的 最 长 前 级 也 
是 了 的 遍历 的 子 串 。 

描述 一 个 找到 最 长 回 文 结构 的 高 效 的 算法 ， 最 长 回 文 结构 是 长 度 为 二 的 字符 串 了 的 后 缀 。 回 
文 结构 是 一 个 和 它 的 遍历 相等 的 字符 串 。 这 个 方法 的 运行 时 间 是 多 少 ? 

已 知 一 个 数字 序列 S = (xo xi, …,z-0)， 描 述 一 个 寻找 数字 的 最 长 序列 了 = (xo, xa, Xia ) 
的 时 间 为 O(n?) WHR, HP i <i. 且 凡 > 的 si， 即 了 是 8 的 最 长 递减 子 序列 。 

试 给 出 一 个 高 效 算法 ,判定 模式 P 是 否 是 文本 7 的 子 序列 (不 是 子 串 )。 该 算法 的 运行 时 间 
是 多 少 ? 

在 长 度 为 n 的 字符 串 关 和 长 度 为 m 的 字符 串 了 之 间 定 义 编辑 距离 ， 该 距离 是 使 XX 变 成 了 的 
编辑 操作 的 数目 。 编 辑 操作 包括 字符 插入 、 字 符 删 除 和 字符 置换 。 例 如 ， 字 符 串 "algorithm" 
Al "rhythm" 的 编辑 距离 是 6。 为 计算 XX 和 了 之 间 的 编辑 距离 ， 请 设计 一 个 时 间 为 O(nm) 的 
算法 。 

WX ERED n 的 字符 串 , 了 是 长 度 为 m 的 字符 串 。 设 BO, 有 是 后 级 X[n — j:n] 和 后 缀 Y[m 一 km] 
的 最 长 公共 子 串 的 长 度 。 为 计算 所 有 BG, 月 的 值 ， 试 设计 一 个 时 间 为 O(nm) 的 算法 ,其 中 j= 1, 


eH, k= li. * Ho 
Anna 说 得 了 竞赛 ， 她 可 以 在 免费 糖果 之 外 多 拿 n 块 糖果 。Anna 已 经 知道 一 些 糖果 较 贵 ,而 
其 他 糖果 相对 便宜 。 装 糖果 的 瓶子 分 别 被 标号 为 0, 1，…，m - 1， 瓶子/ 有 方块 糖果 ， 每 一 


块 的 价格 是 cj。 设 计 一 个 时 间 为 O(n + m) 的 算法 ,该 算法 允许 Anna 最 大 化 因 赢 得 奖励 所 拿 
走 糖 果 的 价值 。 试 为 Anna 提供 最 大 化 价值 的 算法 。 

定义 三 个 数组 4、B 和 C， 每 个 数组 的 大 小 为 n。 已 知 一 个 任意 的 数字 k， 设 计 一 个 时 间 为 
Olr log n) 的 算法 ， 判 定 是 否 存在 这 样 的 数字 ， 即 对 于 4 中 的 a、B8 中 的 b 和 C 中 的 ce， 有 k= 
a+b+c. 

为 上 面 的 练习 给 出 一 个 时 间 为 O(n’) 的 算法 。 

已 知 长 度 为 半 的 字符 串 世 和 长 度 为 六 的 字符 串 Y， 试 描述 一 个 为 寻找 XX 的 最 长 前 级 同时 是 了 
的 后 缀 的 时 间 为 O(n + m) 的 算法 。 

为 从 一 棵 标准 字典 树 中 删除 一 个 字符 串 ， 试 给 出 一 个 高 效 的 算法 并 分 析 它 的 运行 时 间 。 

为 从 一 棵 压缩 字典 树 中 删除 一 个 字符 串 ， 试 给 出 一 个 高 效 的 算法 并 分 析 它 的 运行 时 间 。 

为 构建 一 棵 后 缀 字典 树 的 简明 表示 描述 一 个 算法 ,已 知 它 的 非 简 明 表示 ， 并 且 分 析 该 算法 的 
运行 时 间 。 


使 用 LCS 算法 在 DNA 字符 串 之 间 计 算 最 好 的 序列 队列 ，DNA 字符 串 可 以 从 基因 库 中 在 线 
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fu. 

写 一 个 工程 ， 有 两 个 字符 串 〈 例 如 DNA 双 旋 链 的 表示 ) 并 且 计 算 它 们 的 编辑 距离 ， 同 时 显 
示 相 应 的 内 容 。 

为 可 变 长 度 的 模式 执行 关于 蛮 力 算法 和 KMP 模式 匹配 算法 的 效率 (执行 的 字符 比较 的 数目 ) 
的 实验 性 分 析 。 

为 可 变 长 度 的 模式 执行 关于 蛮 力 算法 和 Boyer-Moore 模式 匹配 算法 的 效率 (执行 的 字符 比较 
的 数目 ) 的 实验 性 分 析 。 

对 蛮 力 算法 、KMP 和 Boyer-Moore 模式 匹配 算法 的 相对 速度 进行 实验 性 分 析 。 在 使 用 可 变 
长 度 模式 搜索 的 巨大 文本 文档 上 记录 相对 的 运行 时 间 。 

针对 Python 的 str 类 的 find 方法 的 效率 进行 实验 ， 并 且 构 建 一 个 关于 它 使 用 的 模式 匹配 算法 
的 假设 。 试 图 使 用 可 能 对 不 同 的 算法 同时 造成 最 好 情况 和 最 坏 情况 的 输入 。 

实现 一 个 基于 霍 夫 曼 编码 的 压缩 和 解压 的 方案 。 

创建 一 棵 对 ASCII 字符 串 的 集合 实现 标准 字典 树 的 类 。 这 个 类 应 该 有 将 一 系列 字符 串 作为 一 
个 参数 的 构造 函数 ， 并 且 这 个 类 应 该 有 测试 给 定 过 的 字符 串 是 否 存 储 在 字典 树 中 的 方法 。 
创建 一 个 对 ASCH 字符 串 的 集合 实现 压缩 字典 树 的 类 。 这 个 类 应 该 有 将 一 系列 的 字符 串 作 为 
一 个 参数 的 构造 函数 ， 并 且 这 个 类 应 该 有 测试 给 定 的 字符 串 是 否 存 储 在 字典 树 中 的 方法 。 
创建 一 个 对 ASCI 字符 串 实现 一 个 前 缀 字典 树 的 类 。 这 个 类 应 该 有 将 字符 串 作为 一 个 参数 的 
构造 函数 ， 并 且 这 个 类 应 该 有 在 字符 串 上 进行 模式 匹配 的 方法 。 

为 一 个 小 网 站 的 网 页 实现 在 13.5.4 节 中 描述 的 简化 的 搜索 引擎 。 使 用 在 网 站 页 面 中 的 所 有 单 
词 作 为 索引 词 ， 除 了 一 些 诸如 文章 、 介 词 、 名 词 这 样 的 停 词 。 

通过 对 在 13.5.4 节 描 述 的 简化 的 搜索 引擎 添加 一 个 页 面 排序 特征 ， 对 一 个 小 网 站 的 页 面 实 
现 搜索 引擎 。 页 面 排序 特征 应 该 首先 返回 最 相关 的 页 面 。 使 用 网 站 页 面 的 所 有 单词 作为 索引 
词 ， 除 了 诸如 冠 词 、 介 词 和 代词 这 样 的 停顿 词 。 


拓展 阅读 


KMP 算法 是 由 Knuth、Morris 和 Pratt 在 期 刊 文章 59 中 描述 的 ， 并 且 Boyer 和 Moore 在 同年 出 版 
的 期 刊 文章 中 也 描述 了 他 们 的 算法 Pa。 在 文章 中 ，Knuth 等 人 © 还 证 明了 Boyer-Moore 算法 以 线性 时 
间 运 行 。 最 近 Cole?” 展示 了 Boyer-Moore 算法 在 最 坏 情况 下 至 多 进行 3n 次 字符 比较 ， 并 且 这 个 界限 
很 窄 。 上 述 所 有 讨论 的 算法 同样 被 Aho 外 讨论 了 ， 虽然 在 更 多 的 理论 框架 中 包括 普通 表达 式 的 模式 匹 
配方 法 。 对 字符 串 模式 匹配 的 深层 学 习 感 兴趣 的 读者 可 阅读 StephenP?! 的 书 , 还 有 Aho, Crochemore 
和 Lecroq"?! 的 书 。 

动态 规划 在 运筹 学 的 团体 中 不 断 发 展 ， 并 且 被 Bellman"" 正式 化 。 

字典 树 由 Morrison"?! 发 明 并 且 在 Knuth'?! 的 《经 典 排 序 和 搜索 》 一 书 中 被 广泛 讨论 。 ”Patricia ” 
Æ “Practical Algorithm to Retrieve Information Coded in Alphanumeric” U? 的 fij fk. McCreight"?! 展 
示 了 如 何在 线性 时 间 内 构建 后 缀 字典 树 。 信 息 检索 领域 的 介绍 ， 包 括 对 网 络 的 搜索 引擎 的 介绍 ， 在 
Baeza-Yates 和 Ribeiro-Neto ® 的 书刊 中 有 所 提 及 。 


| 第 14 全 


Data Structures and Algorithms in Python 


图 算 法 





14.1 图 


图 是 表示 对 象 之 间 的 存在 关系 的 一 种 方式 。 即 图 是 对 象 的 一 个 集合 ， 称 为 项 点， 顶点 
之 间 的 成 对 连接 称 为 边 。 图 在 许多 领域 中 都 有 应 用 ， 包 括 绘图 、 运 输 、 计 算 机 网 络 和 电气 工 
程 。 顺 便 说 一 下 ， 这 里 的 “图 ”的 概念 不 应 该 与 条 形 图 和 函数 图 混淆 ， 因 为 这 些 形 形 色色 的 
“图 ”和 本 章 的 话题 无 关 。 

抽象 地 看 ， 图 G 仅仅 是 顶点 的 集合 下 和 下 中 的 成 对 的 顶点 〈 称 为 边 ) 的 集合 E。 因 此 ， 
图 是 表示 一 些 集合 和 中 的 成 对 对 象 的 连接 或 关系 的 一 种 方式 。 此 外 ， 一 些 书 籍 中 对 图 形 使 用 
不 同 的 术语 ， 如 将 顶点 称 为 节点 ， 并 且 将 边 称 为 圆 弧 。 我 们 使 用 术语 “顶点 ”和 “ 边 ”。 

在 图 中 边 被 定义 为 有 向 或 者 无 向 的 。 如 果 顶 点 对 (u,v) 是 有 序 的 , u 在 v 之前， 可 以 说 
W Cu, v) 从 顶点 & 到 顶点 v 是 有 向 的 。 如 果 顶 点 对 (wu, v) CRAY, BTW Cu, v) 是 无 
向 的 。 无 向 边 有 时 候 用 数学 符号 表示 为 {u,v}， 但 是 为 简单 起 见 ， 我 们 使 用 顶点 对 符号 (u, v), 
注意 无 向 情况 下 (wu, v) F (v, u) 是 一 样 的 。 通 常 通 过 将 顶点 绘制 为 椭圆 形 或 和 矩形， 并 将 边 
作为 连接 椭圆 形 和 和 矩形 对 的 线段 或 曲线 来 显示 图 形 。 下 面 是 有 向 或 者 无 向 图 的 一 些 例子 。 

例题 14-1 : 我 们 可 以 通过 构造 一 个 图 来 可 视 化 
某 一 学 科研 究 者 之 间 的 协作 ， 这 些 图 的 顶点 与 研究 
者 本 身 相 关联 ， 边 用 于 连接 与 共同 研究 论文 或 书 的 
研究 人 员 相 关联 的 顶点 对 ( 见 图 14-1 )。 这 样 的 边 是 
无 向 的 ， 因 为 合 著 是 一 种 对 称 关系 ; 也 就 是 说 ， 如 
果 A 与 B 合 著 了 菜 些 文献 那么 B 必然 与 A 合 著 
了 同样 的 文献 。 

例题 14-2 : 我 们 将 面向 对 象 的 程序 想象 为 顶点 
代表 定义 在 程序 中 的 类 ， 边 表示 类 之 间 的 继承 关系 
的 图 。 如 果 v 的 类 继承 的 类 ， 就 有 从 顶点 v 到 顶 
点 的 边 。 这 样 的 边 是 有 向 的 ， 因 为 继承 关系 仅仅 只 有 一 个 方向 ( 即 它 是 不 对 称 的 )。 

如 果 图 形 中 的 所 有 边 都 是 无 向 的 ， 那 么 我 们 说 这 个 图 是 无 向 图 。 同 样 ， 一 个 有 方向 的 图 
也 称 为 有 向 图 ， 其 所 有 边 都 是 有 向 的 。 一 个 图 若 同时 有 有 方向 的 边 和 无 方向 的 边 ， 则 通常 称 
为 混合 图 。 注 意 ， 无 向 图 或 者 混合 图 可 以 通过 将 每 一 个 无 向 边 〈xw v) 重 置 为 成 对 的 有 向 边 
Cu, v) Al Cv, 2) 而 转换 成 有 向 图 。 这 通常 是 有 用 的 ， 但 是 ， 为 了 保持 所 表示 的 无 向 图 和 混合 
图 ， 对 于 这 类 图 有 多 种 应 用 ， 如 下 面 的 例子 。 

例题 14-3 : 城市 地 图 可 以 模拟 成 一 个 顶点 是 十 字 路 口 或 者 死角 ， 边 是 没有 交点 的 街道 
延伸 的 曲线 图 。 该 图 既 有 无 向 边 对 应 双 行 道 ， 也 有 有 向 边 对 应 单行 道 。 因 此 ， 在 这 种 方式 
下 ， 城 市 地 图 的 构造 图 是 混合 图 。 

例题 14-4 : 图 的 物理 实例 的 代表 是 建筑 物 的 电气 布线 和 管道 网 络 。 这 种 网 络 可 以 被 建 





图 14-1 一 些 作 者 之 间 的 合 著 关 系 图 








模 成 图 ， 其 中 每 一 个 连接 器 、 钢 筋 或 者 出 口 被 看 作为 顶点 ， 并 且 每 个 电线 或 管道 的 不 间断 延 
伸 被 看 作 边 。 这 些 图 实际 上 是 更 大 的 图 形 ， 即 当地 的 电力 和 供水 网 络 的 组 成 部 分 。 根 据 在 这 
些 图 中 感 兴趣 的 具体 方面 ， 可 以 考虑 它们 的 边 是 无 向 或 者 有 向 的 ， 因 为 ， 在 原则 上 ， 水 在 管 
道中 或 电流 在 导线 中 可 以 沿 任 一 方向 流动 。 

由 边缘 连接 的 两 个 顶点 被 称 为 边 的 端 部 顶点 (或 端点 )。 如 果 边 是 有 向 的 ， 它 的 第 一 个 
端点 是 起 点 ， 并 且 另 一 个 端点 是 边 的 终点 。 两 个 端点 & 和 YY 之 间 如 果 有 一 条 边 ， 则 称 它们 是 
相 令 的。 如果 顶 点 是 边 的 端点 之 一 ， 则 这 条 边 被 称 为 入 射 到 这 个 顶点 。 一 个 顶点 的 输出 边 是 
起 点 为 该 顶点 的 有 向 边 。 输 入 边 是 其 终点 为 该 顶点 的 有 向 边 。 顶 点 v 的 度 表 示 为 deg(v)， 是 
vv 的 入 射 边 的 数目 。 顶 点 v 的 入 度 和 出 度 是 v 的 输入 边 和 输出 边 的 数目 ,分 别 表 示 为 
indeg(v) 和 outdeg(v). 

例题 14-5 : 我 们 可 以 通过 构造 一 个 图 G 来 研究 
航空 运输 ， 图 G 称 为 飞行 网 络 ， 其 顶点 和 机 场 相关 
联 ， 边 和 航班 相关 联 (CLE 14-2)。 在 图 G 中， 边 是 
有 向 的 ， 因 为 给 出 的 航班 有 具体 的 行驶 方向 。G 中 每 
个 边 e 的 端点 分 别 与 e 对 应 的 航班 的 出 发 地 和 目的 地 
对 应 。 两 个 机 场 在 G 中 相 邻 的 条 件 是 ， 有 航班 在 它 
们 之 中 飞行 ， 并 且 边 e 入 射 到 图 G 中 的 顶点 的 条 
件 是 ， 对 应 e 的 航班 飞 向 V 或 者 是 从 对 应 VvV 的 机 场 飞 
来 。 顶 点 Vv 的 输出 边 对 应 v 机场 的 出 站 航班 。 最 后 ， 
G 的 顶点 Vv 的 入 度 对 应 vV 机场 的 进 站 航班 的 数目 ，G 
的 顶点 vv 的 出 度 对 应 出 站 航班 的 数目 。 

图 的 定义 是 指 将 边 作为 一 个 集合 (collection MAE 
set)， 从 而 允许 两 个 无 向 边 具有 相同 的 端点 ， 对 于 两 个 有 向 边 可 以 有 相同 的 起 点 和 终点 。 这 
种 边 称 为 平行 边 或 者 多 重 边 。 飞 行 网 络 中 可 以 包含 平行 边 ( 见 例题 14-5 )， 这 样 ， 同 一 对 顶 
点 之 间 的 多 条 边 可 以 指示 在 一 天 的 不 同时 间 的 同一 路 线 上 运行 的 不 同 航班 。 另 一 种 边 的 特殊 
类 型 是 顶点 和 自己 连接 。 也 就 是 说 ， 如 果 两 个 顶点 重合 ,我们 称 这 样 的 边 (无 向 的 或 者 有 问 
的 ) 为 自 循环 。 自 循环 可 能 出 现在 城市 地 图 ( 见 例题 14-3 )， 它 可 能 对 应 “ 圆 ”( 一 个 返回 其 
出 发 点 的 环形 的 街道 )。 

除了 少数 例外 ， 图 没有 平行 边 和 自 循 环 。 这 类 图 被 认为 是 简单 的 。 因 此 ， 我 们 通常 说 简 
单 图 的 边 是 一 组 顶点 对 (set 而 不 仅仅 是 collection ) 。 在 本 章 中 ， 我 们 假设 图 是 简单 的 ， 除 非 
另 有 规定 。 

路 径 是 交替 的 顶点 和 边 的 序列 ， 其 开始 于 一 个 顶点 ， 结 束 于 一 个 顶点 ， 使 得 每 条 边 人 
射 到 它 的 前 继 顶 点 和 后 继 顶 点 。 循 环 是 指 开 始 和 结束 在 同一 个 顶点 ， 并 且 至 少 包含 一 条 边 的 
路 径 。 如 果 路 径 中 的 每 个 顶点 都 是 不 同 的 ， 我 们 称 这 条 路 径 是 简单 的 。 如 果 循 环 中 的 每 个 项 
点 都 是 不 同 的 (除去 第 一 个 和 最 后 一 个 项 点 )， 则 称 这 个 循环 是 简单 的 。 有 向 路 径 是 指 所 有 
的 边 都 是 有 向 的 并 且 沿 其 方向 运行 的 路 径 。 有 向 循环 也 是 类 似 的 定义 。 例 如 ， 在 图 14-2 中 ， 
(BOS, NW 35, JFK, AA 1387, DFW) 是 有 向 简单 路 径 ， 而 (LAX, UA 120, ORD, UA 
877, DFW, AA 49, LAX) 是 有 向 简单 循环 。 注 意 到 ， 有 向 图 可 以 包含 同一 对 顶点 之 间 两 
条 方向 相反 的 边 ， 例 如 在 图 14-2 中 的 (ORD, UA 877, DFW, DL 355，ORD)。 如 果 有 向 
图 中 没有 有 向 循环 ， 则 它 是 非 循 环 的 。 例 如 ， 如 果 我 们 在 图 14-2 中 移 除 边 UA 877, WA F 





图 14-2 飞行 网 络 的 有 问 图 。 边 UA 120 
的 端点 是 LAX 和 ORD， 因 此 ， 
LAX fil ORD 是 相 邻 的 。 DFW 
的 入 度 是 3，DFW 的 出 度 是 2 
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的 图 是 一 个 循环 。 如 果 图 是 简单 的 ， 在 描述 路 径 忆 或 者 循环 C 时 , 在 已 是 相 邻 顶点 的 列表 
和 C 是 相 邻 顶点 的 循环 的 情况 下 ， 我 们 需要 省 略 边 ， 因 为 这 些 已 定义 得 很 好 。 

例题 14-6: 代表 城市 地 图 的 图 G 已 经 给 出 了 ( 见 例题 14-3 )， 我 们 可 以 模拟 一 对 夫妇 驾 
车 按照 G 中 的 路 径 行驶 到 推荐 的 餐厅 去 吃 晚 饭 。 如 果 他 们 知道 路 ， 并 且 不 走 入 相同 的 路 口 
两 次 ， 那 么 他 们 在 G 中 行驶 了 简单 路 径 。 因 此 ， 我 们 可 以 模拟 出 这 对 夫妇 所 需要 的 全 部 旅 
程 ， 从 他 们 的 家 到 餐厅 再 返回 家 ， 作 一 个 循环 。 如 果 他 们 从 餐厅 回 家 的 路 和 去 餐厅 的 路 完全 
不 同 ， 甚 至 没有 经 过 相同 的 路 口 两 次 ， 那 么 他 们 的 整个 行程 就 是 一 个 简单 循环 。 最 后 ， 如 果 
他 们 在 整个 行程 中 沿 着 单行 道 进行 ， 我 们 可 以 模拟 他 们 的 夜晚 出 行 作 为 一 个 有 向 循环 。 

(有 向 ) 图 G 中 已 经 给 出 了 顶点 u 和 YY， 如 果 G 中 从 xz 到 v 有 一 条 CRISI) 路 径 ， 我 们 称 
u Flik v, HH vÆM u 可 达 的 。 在 无 向 图 中 ， 可 达 性 的 概念 是 对 称 的 ， 也 就 是 说 ， 假 设 v 
可 达 u， 则 ww 可 达 v。 然 而 ,在 有 向 图 中 ， 可 能 w 可 达 v, 但 是 v 不 可 达 u， 因 为 有 向 路 径 必 
须根 据 边 各 自 的 方向 进行 遍历 。 如 果 一 个 图 是 连通 的 ， 则 意味 着 对 于 任何 两 个 顶点 ,它们 中 
间 都 是 有 路 径 的 。 如 果 对 于 G 的 任何 两 个 顶点 wu Aly, 都 有 4 可 达 v 并 且 v 可 达 u， 则 有 向 
图 G 是 强 连 通 的 ( 见 图 14-3 的 一 些 例子 。) 





图 14-3 有 向 图 可 达 的 例子 : a) 从 BOS 到 LAX 突出 显示 有 向 路 径 ; b) 突出 显示 的 有 向 循环 (ORD, 
MIA，DFW，LAX，ORD)， 它 的 顶点 可 产生 强 连 通 子 图 ; c) 突出 显示 来 自 ORD 的 顶点 和 
边 的 子 图 ; d) 虚线 边 的 移 除 产 生 了 一 个 循环 有 向 图 


图 G 的 子 图 是 顶点 和 边 是 G 的 项 点 和 边 的 各 自 的 子 集 的 图 石 。G 的 生成 子 图 是 包含 图 
G 的 所 有 顶点 的 图 。 如 果 图 G 是 不 连通 的 ， 它 的 最 大 连通 子 图 称 为 G 的 连通 分 支 。 森 林 是 





没有 循环 的 图 。 树 是 连通 的 森林 ， 即 没有 循环 的 连通 图 。 图 的 生成 树 是 树 的 生成 子 图 。( 请 
注意 ,， 树 的 定义 和 第 8 章 给 出 的 树 的 定义 有 略微 不 同 ， 因 为 不 一 定 是 特定 的 根 。) 

例题 14-7: 也 许 现在 最 受 关注 的 图 是 因特网 ， 它 可 以 被 看 作 顶 点 是 计算 机 ，( 无 向 ) 边 是 
互联 网 上 一 对 计算 机 之 中 的 通信 连接 的 图 。 计 算 机 及 其 在 域 上 的 联系 ， 就 像 wiley.com， 形 
成 了 因特网 的 子 图 。 如 果 这 个 子 图 是 连通 的 ， 那 么 当 两 个 用 户 在 这 个 域 上 使 用 计算 机 发 送 电 
子 邮 件 给 对 方 时 ， 不 需要 信息 报 离开 这 个 域 。 假 设 这 个 子 图 的 边 形成 了 一 个 生成 树 。 这 意味 
着 即使 只 要 一 个 连接 断 开 (例如 ， 因 为 有 人 在 该 域 中 将 计算 机 的 通信 电缆 断 开 了 )， 那 么 这 
个 子 图 将 不 再 连通 。 

在 后 续 的 命题 中 ， 我 们 探索 图 的 几 个 重要 特性 。 

命题 14-8: Aw GE m &ihbdegi A Vemm, PA 


> deg(v) - 2m 
WEBB: 一 旦 通过 其 端点 和 通过 其 端点 v 一 次 ,在 上 述 求 和 计算 中 边 (u, v) 就 计算 了 
两 次 。 因 此 ， 边 对 顶点 度数 的 总 贡献 数 是 边 数目 的 两 倍 。 5 


命题 14-9: wR GRA m&d ak VAS, BA 
> indeg(v)=}_ outdeg(v) =m 


WEBB: 在 有 向 图 中 , XI Cu, v) IEE u WERIT — AA, SA v AAE 
贡献 了 一 个 单元 。 因 此 , 边 对 顶点 出 度 的 总 贡献 和 边 的 数目 相等 ， 人 度 也 是 一 样 的 。 a 

我 们 接 下 来 展示 一 个 有 nn 个 顶点 ，O QD) 条 边 的 简单 图 。 

命题 14-10: 给 定 G 为 具有 nn 个 顶点 和 m 条 边 的 简单 图 。 如 果 G 是 无 向 的 ， PAm< 
n(n 一 1)/2， 如 果 G 是 有 向 的 ， 那 么 ms n(n- 1). 

证 明 : 假设 G 是 无 向 的 。 因 为 没有 两 条 边 可 以 有 相同 的 端点 并 且 没 有 自 循环 ， 在 这 种 
情况 下 G 的 项 点 的 最 大 度 是 n -1。 因 此 ， 通 过 命题 14-8, 2m < n(n - 1)。 现 在 假设 G 是 有 
向 的 。 因 为 没有 两 条 边 具有 相同 的 起 点 和 终点 ， 并 且 没 有 自 循 环 ， 在 这 种 情况 下 G 的 顶点 
的 最 大 入 度 是 n 一 1。 因此 ， 通 过 命题 14-9, m < n(n- 1). m 

有 许多 树 、 森 林 和 连通 图 的 简单 属性 。 

命题 14-11: 给 定 G 是 有 nn 个 顶点 各 条 边 的 无 向 图 。 

e AK G 是 连通 的 ， HR mmen-l. 

e 如 果 G 是 一 棵 树 ， 那 么 m=n 一 1。 

e 如 果 G 是 森林， 那么 mm 万 n 一 1。 


图 的 抽象 数据 结构 


图 是 顶点 和 边 的 集合 。 我 们 将 抽象 模型 定义 为 三 种 数据 类 型 的 组 合 : Vertex, Edge 和 
Graph. Vertex 是 存储 由 使 用 者 提供 的 任意 元 素 的 轻 量 级 的 对 象 〈 例 如 ， 机 场 节 点 )， 我 们 假设 
它 提供 一 个 用 来 检索 所 存储 元 素 的 方法 element()。Edge 同样 存储 相关 联 的 对 象 (例如 ， 航 
班 号 、 行 程 距离 、 费 用 )， 用 element) 方法 进行 检索 。 此 外 ， 我 们 假设 Edge 提供 以 下 方法 : 

e endpoint(): 返回 元 组 (u, v), TUA u EWER, MA v ERA: 对 于 一 个 无 向 图 ， 

方向 是 任意 的 。 

e opposite(): 假设 顶点 v 是 边 的 一 个 端点 (起 点 或 者 终点 )， 返 回 另 一 个 端点 。 
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图 的 基本 抽象 表示 为 Graph ADT。 我 们 假设 一 个 图 是 有 向 或 者 无 向 的 ， 定 义 在 构造 时 


指定 ; 回想 混合 图 可 以 代表 一 个 有 向 图 ， 构 造 边 (us, v3 作为 一 对 有 向 边 Cu, v) Al Cv, u)o 
Graph ADT 包含 以 下 几 种 方法 : 


e vertex count(): 返回 图 的 顶点 的 数目 。 

e vertices(): 迭代 返回 图 中 所 有 顶点 。 

e edge count(): 返回 图 的 边 的 数目 。 

e edges(): 迭代 返回 图 的 所 有 边 。 

e get edge(u, v): 返回 从 顶点 4 到 顶点 v 的 边 ， 如 果 其 中 一 个 存在 ; 否则 返回 None. 
对 于 无 问 图 ，get_edge(u, v) 和 get edge(v, u) 之 间 没 有 区 别 。 


e degree(v, out = True): 对 于 一 个 无 向 图 ， 返 回 边 人 射 到 顶点 的 数目 。 对 于 一 个 有 向 
图 ， 返回 入射 到 顶点 vv 的 输出 (或 输入 ) 边 的 数目 ， 由 可 选 参数 指定 。 


incident edges(v, out = True) : 返回 所 有 边 人 射 到 顶点 v 的 迭代 循环 。 在 有 向 图 的 情 
况 下 ， 通 过 默认 报告 输出 边 ; 如 果 可 选 参数 设置 为 False， 则 报告 输入 边 。 

insert vertex(x = None): 创建 和 返回 一 个 新 的 存储 元 素 x 的 Vertex, 

insert edge(u, v, x = None): 创建 和 返回 一 个 新 的 从 顶点 4 到 顶点 v 的 存储 元 素 x 的 
Edge (默认 None). 

remove vertex(v): 移 除 项 点 v 和 图 中 它 的 所 有 入射 边 。 

remove edge(e): 移 除 图 中 的 边 e。 


14.2 图 的 数据 结构 


在 本 节 中 ， 我 们 介绍 四 种 表示 图 的 数据 类 型 。 对 于 每 一 种 表示 ， 我 们 维护 一 个 集合 去 存 


储 图 的 顶点 。 然 而 ， 这 四 种 表示 在 它们 组 织 边 的 方式 上 有 显著 不 同 。 


e 在 边 列 表 中 ,我 们 对 所 有 边 采 用 无 序 的 列表 。 这 个 最 低 限 度 就 足够 了 ， 但 是 还 没有 
有 效 的 方法 来 找到 特定 的 边 Cu, v)， 或 者 将 所 有 的 边 人 射 到 顶点 vo 

e 在 邻接 列表 中 ， 我们 为 每 个 顶点 维护 一 个 单独 的 列表 ， 包括 入 射 到 顶点 的 那些 边 。 
可 以 通过 取 较 小 集合 的 并 集 来 确定 完整 的 边 集 合 ， 然 而 我 们 可 以 更 高 效 地 找到 所 有 
入 射 到 给 出 顶点 的 边 。 





e 邻接 图 和 邻接 列表 非常 相似 ， 但 是 所 有 人 和 人 射 到 顶点 的 边 的 次 级 容器 被 组 织 成 一 个 图 ， 而 
不 是 一 个 列表 ， 用 相 邻 的 顶点 作为 键 。 这 人 允许 在 O (1 ) 的 预期 时 间 内 访问 特定 边 Cu, v). 


e 邻接 适 阵 通过 对 于 及 n 个 顶点 的 图 维持 一 个 n xz 矩阵 来 提供 最 坏 的 情况 下 访问 特定 
边 (u,v) 的 时 间 0( 1)。 每 一 项 专用 于 为 顶点 u 和 v 的 特定 对 存储 一 个 参考 边 (wu, v); 
如 果 没 有 这 样 的 边 存 在 ， 该 表 项 即 为 空 。 

这 些 结构 的 性 能 的 总 结 在 表 14-1 中 给 出 。 我 们 在 本 节 的 剩余 部 分 给 出 结构 的 进一步 说 明 。 


表 14-1 在 本 节 讨论 的 图 的 表示 中 对 Graph ADT 方法 运行 时 间 的 总 结 。 令 n 表示 顶点 的 数目 ，m 表 


示 边 的 数目 ，d, 表示 顶点 v 的 度 。 注 意 邻 接 矩 阵 使 用 O(n?) 的 空间 ， 而 所 有 其 他 的 结构 使 
用 O(n + m) 的 空间 
m f 邻接 矩阵 
vertex count) OQ) 
edge count) OQ) 





406  gl4* 
(AE) 
TN: WERE 
TU ov) 
eigen Ow) 
CETT au) 
depen) ov) 
insert vertex) ov 
remos vertex) ov) 
ect dg au) 
Too au) 


14.2.1 边 列表 结构 


边 列表 结构 作为 图 G 的 表示 方式 可 能 是 最 简单 的 ， 但 是 却 不 是 最 有 效 的 。 所 有 项 点 存 
储 在 一 个 无 序 的 列表 VV 中 ， 并且 所 有 边 对 象 存储 在 一 个 无 序 的 列表 EE 中。 我们 在 图 14-4 中 


举例 说 明 图 G 的 边 列表 结构 。 

为 了 支持 Graph ADT (14.1 47) 的 许多 方 
ik. 我们 假设 边 列表 代表 以 下 附加 特征 。 集 合 
广 和 EE 用 双向 链表 表示 ， 该 双向 链表 使 用 第 7 
AY PositonalList 类 。 

e 顶点 对 象 。 存 储 元 素 x 的 顶点 v 的 顶点 

对 象 有 以 下 实例 变量 : 

e 对 元 素 x 的 引用 ， 为 了 支持 element() 
TE « 
MANA v POURS PALA SIA, and 
v 从 图 中 移 除了 ， 由 此 允许 v 有 效 地 从 六 
中 移 除 。 
e 边 对 象 。 存 储 元 素 x 的 边 e 的 边 对 象 有 
以 下 实例 变量 : 
对 元 素 x 的 引用 ， 为 了 支持 element() 
方法 。 
和 e 的 端点 相关 联 的 顶点 对 象 的 引用 ， 
从 而 允许 边 实例 为 方法 endpoints() 和 
opposite(v) 提供 固定 时 间 支 持 。 
列表 E 中 边 实例 的 位 置 的 引用 ， 如 果 e 在 
图 中 被 移 除 了 ， 由 此 允许 e 更 高 效 地 从 E 
中 移 除 。 

边 列表 结构 的 性 能 

在 实现 Graph ADT 过 程 中 边 列表 结构 的 
性 能 总 结 在 表 14-2 中 。 我 们 首先 讨论 空间 的 使 
用 ， 表 示 一 个 有 nn 个 顶点 和 m 条 边 的 图 的 使 用 





V E 

















图 14-4 a) KIG; b) G 的 边 列表 结构 的 概要 
表示 。 注 意 到 边 对 象 指 的 是 对 应 于 它 
的 端点 的 两 个 顶点 的 对 象 ， 但 是 该 项 
点 不 指 事件 边 

表 14-2 ”用 边 列表 结构 实现 图 的 表示 的 运行 时 

间 。 空 间 使 用 是 O(n + m) 其 中 n 

是 顶点 的 数目 ，m 是 边 的 数目 

运行 时 间 
vertex count(), edge count() 
vertices() 


edges() 


get edge(u, v), degree(v), incident - 


edges(v) 
insert vertex(x), insert edge(u, v, x), 
remove edge(e) 


remove vertex(v) 
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空间 是 O(n + m)。 每 一 个 单独 的 顶点 或 者 边 实例 使 用 0(1) 的 空间 ， 附 加 列表 VA E E 
空间 与 它们 的 条 目 数 成 比例 。 

就 运行 时 间 而 言 ， 边 列表 结构 在 报告 顶点 和 边 的 数目 ， 或 者 在 产生 那些 顶点 或 者 边 的 
循环 中 ， 并 不 如 人 们 希望 的 一 样 好 。 通 过 查询 相应 的 列表 人 或 者 E， 顶 点 和 边 的 计算 方法 的 
运行 时 间 是 0(1)， 并 且 在 正确 的 列表 中 循环 ,该 方法 对 顶点 和 边 的 运行 时 间 分 别 是 O(n) 和 
O(m)» 

边 列 表 结构 最 显著 的 局 限 性 ， 尤 其 是 和 其 他 图 形 表 示 方 法 相 比 较 而 言 ， 是 get edge(u, 
v). degree(v) FI incident edges(v) 方法 的 运行 时 间 0O(m)。 问 题 是 ， 图 的 所 有 边 在 无 序列 表 E 
中 ， 能 响应 那些 查询 的 唯一 方法 是 通过 对 所 有 边 进行 详尽 的 排查 。 在 本 节 中 介绍 的 其 他 数据 
结构 将 会 更 有 效 地 实现 这 些 方 法 。 

最 后 ， 我 们 考虑 了 一 种 更 新 图 的 方法 。 在 O() 时 间 内 很 容易 添加 一 个 新 的 顶点 或 者 一 
条 新 的 边 到 图 中 。 例 如 ， 通 过 一 个 存储 给 定 元 素 作 为 数据 的 Edge 实例 将 新 边 添加 到 图 中 ， 
在 位 置 列表 万 中 添加 那个 实例 ， 在 中 记录 它 的 结果 Position 作为 边 的 属性 。 之 后 ， 存 放 的 
位 置 在 0(1) 时 间 内 可 以 被 用 来 定位 和 删除 这 条 边 ， 从 而 实现 方法 remove_edge(e)。 

讨论 为 什么 remove. vertex(v) 方法 的 运行 时 间 是 O(m) 是 值得 的 。 如 在 Graph ADT 中 所 
示 ， 当 顶点 v 在 图 中 被 移 除 的 时 候 ， 所 有 入 射 到 v 的 边 同样 也 必须 移 除 (否则 ， 我 们 可 能 会 
有 不 是 该 图 的 一 部 分 但 是 指向 该 顶点 的 边 的 矛盾 )。 为 了 找到 该 顶点 的 人 射 边 ， 我 们 必须 研 
jt E PMMA. 


14.2.2 ”邻接 列表 结构 


与 图 的 边 列表 表示 方法 相 比 ， 邻 接 列表 结构 将 通过 将 图 形 的 边 存储 在 较 小 的 位 置 来 对 其 
进行 分 组 ， 从 而 和 每 个 单独 的 顶点 相关 联 的 次 级 容器 集合 起 来 。 具 体 地 ， 对 每 个 顶点 "维持 
一 个 集合 1(v)， 该 集合 被 称 为 v 的 入 射 集合 ， 其 中 全 部 都 是 信 射 到 v 的 边 。( 在 有 向 图 的 情况 
下 ,输出 边 和 输入 边 分 别 存 储 在 两 个 单独 的 集合 lout(v) 和 lino) 中 。) 传统 意义 上 ， 顶 点 ， 
的 入射 集合 1) 是 一 个 列表 ， 这 就 是 为 什么 我 们 称 这 种 图 的 表示 方法 为 邻接 列表 结构 。 

我 们 要 求 邻接 列表 的 基本 结构 在 某 种 程度 
上 保持 顶点 集合 ， 因 此 我 们 可 以 在 0(1) 的 时 
间 内 为 给 出 的 顶点 v 找 出 次 级 结构 wj。 这 可 
以 通过 使 用 位 置 列表 来 表示 V， 同 时 每 个 顶点 o 
实例 对 它 的 人 射 集合 1(v) 维持 一 个 有 向 的 引用 
来 实现 ， 在 图 14-5 中 我 们 说 明了 这 样 的 一 个 “Co 
图 的 邻接 列表 结构 。 如 果 顶 点 可 以 从 0 到 一 1 a) 
进行 唯一 编号 ， 我 们 可 以 代替 使 用 基本 的 基于 
数组 的 结构 去 访问 适当 的 次 级 列表 。 

邻接 列表 主要 的 好 处 是 集合 I) 正好 包含 图 14-5 a) 一 个 无 向 图 G ; b) G 的 邻接 列表 





那些 应 该 用 incident_edges(v) 方 法 报告 的 边 。 结构 的 概要 表示 。 集 合 了 是 顶点 的 基 
因此 ， 我 们 可 以 通过 在 O(deg(v)) 时 间 内 对 Iv) 本 列表 ， 并 且 每 个 顶点 有 一 个 人 射 边 
的 边 进行 迭代 来 实现 这 种 方法 ， 其 中 deg) 是 的 相关 联 的 列表 。 尽 管 没 有 图 解 ， 我 
项 点 v 的 度 。 对 于 任何 图 的 表示 方式 这 是 最 好 们 推测 图 的 每 个 边 用 一 个 维持 其 端点 


的 可 能 的 输出 ， 因 为 有 deg(v) 的 边 进行 报告 。 的 引用 的 唯一 Edge 实例 表示 
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邻接 列表 结构 的 性 能 
K 14-3 总 结 了 图 的 邻接 列表 结构 的 性 能 ， 假 设 主要 集合 广 和 所 有 的 次 级 集合 1(v) 都 由 
双向 链表 实现 。 


表 14-3 用 邻接 列表 结构 实现 图 的 表示 方法 的 运行 时 间 。 空 间 使 用 为 O(n + m)， 其 中 n 是 顶点 的 数 


H, m 是 边 的 数目 
BR 作 运行 时 间 

Vertex count(), edge count() O(1) 

vertices() O(n) 

edges() O(m) 
get_edge(u, v) O(min(deg(u), deg(v))) 
degree(v) O01) 
incident_edges(v) O(deg(v)) 
insert_vertex(x), insert_edge(u, v, x) O(1) 

remove edge(e) O(1) 

remove vertex(v) O(deg(v)) 


渐 近 地 ， 邻 接 列 表 的 所 需 空间 和 边 列 表 结 构 一 样 ， 对 有 nn 个 顶点 和 m 条 边 的 图 需要 使 
用 O(n + m) 的 空间 。 主 要 的 顶点 列表 使 用 O(n) 的 空间 。 所 有 次 级 列表 长 度 的 总 和 是 O (m), 
原因 在 命题 14-8 和 命题 14-9 中 已 经 给 出 了 形式 化 的 描述 。 简 而 言 之 ， 无 向 边 ( wu, v) 引用 在 
Ku) fl v) 中 ,但 是 在 图 中 它 的 存在 仅 使 用 了 定量 的 附加 空间 。 

我 们 已 经 注意 到 ，incident_edges(v) 方法 根据 10) 的 使 用 可 以 实现 O(deg(v)) 的 时 间 。 我 
们 可 以 使 用 OCT) 的 时 间 去 实现 Graph ADT 的 degree(v) 方法 ,假设 1(v) 集合 可 以 在 类 似 的 时 
间 内 报告 它 的 大 小 。 在 实现 get_edge(u, v) 中 为 了 找到 特定 的 边 ， 我 们 可 以 通过 Iu) 或 者 Iv) 
搜索 。 通 过 选择 两 个 中 较 小 的 一 个 ， 我 们 得 到 O(min(deg(u), deg(v))) 的 运行 时 间 。 

X 14-3 中 的 其 余部 分 可 以 额外 地 实现 。 为 了 有 效 地 支持 边 的 缺失 ，edge(x, v) 需要 在 
Ku) 和 Oo) 之 中 的 位 置 维持 一 个 引用 ， 因 此 在 0(1) 时 间 内 ， 它 可 以 从 那些 集合 中 被 删除 。 为 
了 移 除 一 个 顶点 v， 我 们 必须 同样 移 除 任何 一 个 人 射 边 ， 但 是 至 少 可 以 在 O(deg(v)) 时 间 内 
找到 那些 边 。 

在 O(m) 时 间 内 支持 edges() 和 在 OC) 时 间 内 计算 edges() 最 简单 的 方法 是 维护 边 的 辅 
助 列表 EE 作为 边 列 表 的 表示 。 否 则 ， 我们 可 以 通过 访问 每 个 辅助 列表 并 报告 它们 的 边 ， 从 而 
在 O(n + m) 时 间 内 实现 edges 方法 ， 注 意 不 要 报告 无 向 边 (wu, v) 两 次 。 


14.2.8 ”邻接 图 结构 


在 邻接 列表 结构 中 ， 我 们 假设 次 级 入射 集合 作为 无 序 链表 被 实现 。 这 样 集合 (v) 的 用 空 
间 正 比 于 O(deg(v))， 人 允许 一 条 边 在 0(1) 时 间 内 被 添加 或 者 被 移 除 ， 并 且 在 O(deg(v)) 的 时 
间 内 人 允许 所 有 和 人 射 到 顶点 v 的 边 的 迭代 。 然 而 ,get_edge(u, v) 最 好 的 实现 需要 O(min(deg(u), 
deg(v))) 的 时 间 ， 因 为 我 们 必须 在 Iu) 或 者 Iv) 中 搜寻 。 

我 们 可 以 使 用 基于 哈 希 的 映射 为 每 个 顶点 v 实现 (v) 来 提高 性 能 。 有 具体 而 言 ， 我 们 让 每 
个 人 射 边 的 相反 的 端点 作为 图 的 主键 ， 用 边 结 构 作 为 值 。 我 们 称 这 种 图 的 表示 方法 为 邻接 图 
( 见 图 14-6 )。 邻 接 图 的 空间 使 用 保持 为 O(n + m)， 因 为 Iv) 对 每 个 顶点 v 使 用 O(deg()) 的 
空间 ， 和 邻接 列表 一 样 。 
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相对 于 邻接 列表 ， 邻 接 图 的 优势 是 方法 get. edge(u, v) 可 以 通过 将 顶点 作为 关键 字 在 


Iv) 中 搜索 以 达到 在 预期 时 间 O(1) 内 实现 。 这 
为 邻接 列表 提供 了 可 能 的 改善 ， 同 时 保持 在 
O(min(deg(u), deg(v))) 的 最 坏 情况 的 范围 内 。 

在 比较 邻接 图 的 性 能 和 其 他 表达 方式 的 性 
能 的 过 程 中 ( 见 表 14-1 )， 我 们 发 现 它 本 质 上 
对 所 有 方法 实现 了 最 佳 的 运行 时 间 ， 成 为 图 表 
示 中 一 种 优秀 的 通用 选择 。 


14.2.4 ”邻接 矩阵 结构 


图 G 的 邻接 算 阵 结构 对 边 列表 结构 增加 了 
一 个 矩阵 4 ( 即 一 个 二 维 数 组 ， 节 5.6 节 )， 这 
允许 我 们 在 最 坏 情况 的 固定 时 间 内 找 出 一 对 给 
定 顶 点 之 间 的 边 。 在 邻接 矩阵 表示 方式 中 ， 我 
们 考虑 顶点 以 集合 {10，1，…，, n-1} 中 的 数 
字 来 表示 ， 边 以 这 些 数字 中 的 其 中 一 对 来 表 
示 。 这 人 允许 在 二 维 数组 A 的 单元 格 内 存储 边 的 
引用 。 特 别 地 ， 单 元 格 4 [i, 用 存储 边 (u,v) 的 
引用 (如果 它 存在 的 话 )， 其 中 是 索引 为 i 的 
顶点 ,v 是 索引 为 j 的 顶点。 如 果 没 有 这 样 的 边 ， 
AKA A [i j] = None。 我 们 需要 注意 到 ， 如 果 图 
G 是 无 向 的 ， 则 数组 4 是 对 称 的 ， 例 如 对 所 有 
Bg—o i Ay HBL, AJ] 7 AU. i] GLA 14-7). 

邻接 矩阵 最 显著 的 优点 是 任何 边 (u, v) 可 
以 在 最 坏 情况 下 OC) 时间 内 被 访问 到 ， 而 邻 
接 图 支持 在 0(1) 的 预期 时 间 内 操作 。 然 而 ， 
用 邻接 矩阵 进行 的 一 些 操作 效率 很 低 。 例 如 ， 
为 了 找到 入 射 到 顶点 v 的 边 ， 我 们 必须 大 概 检 
测 与 v 相 关联 的 行 的 所 有 n 个 条 目 ， 而 邻接 列 
表 或 者 邻接 图 可 以 在 最 佳 的 O(deg(v)) 时 间 内 
找到 这 些 边 。 从 一 个 图 中 添加 或 者 移 除 顶点 是 
不 确定 的 ， 因 为 矩阵 必须 调整 大 小 。 
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图 14-6 a) 一 个 无 向 图 G; b) G 的 邻接 图 结构 


的 概要 表示 。 每 个 顶点 保持 为 一 个 次 
级 图 ， 其 中 邻接 的 点 作为 主键 ， 连 接 
的 边 作 为 相关 联 的 值 。 尽 管 没 有 用 图 
表示 出 来 ， 但 我 们 假设 图 的 每 一 条 边 
都 有 一 个 唯一 的 Edge 实例， 并且 对 它 
的 端点 维持 引用 





图 14-7 a) 一 个 无 向 图 G ; b) G 的 邻接 辅助 矩 


阵 结构 的 概要 表示 ， 其 中 4 个 顶点 映 
射 到 索引 0 到 nn 一 1。 尽管 没有 用 图 表 
示 ， 我 们 假设 对 每 一 条 边 有 一 个 唯一 
的 Edge 实例 ， 并 且 它 对 每 个 端点 维持 
一 个 引用 。 我 们 同样 假设 有 一 个 次 级 边 
列表 (没有 画 出 来 )， 对 有 m 条 边 的 图 ， 
允许 edges) 方法 在 O(m) 时 间 内 运行 


此 外 ， 邻 接 矩 阵 O(n^) 的 使 用 空间 通常 远 远 差 于 其 他 表示 方法 所 需 的 O(n + m) 空间 。 虽 
然 ， 在 最 坏 的 情况 下 ， 密 集 图 的 边 的 数目 将 正比 于 mw， 然而 大 多 数 现实 世界 的 图 是 稀疏 的 。 
在 这 样 的 情况 下 ， 邻 接 和 矩阵 的 使 用 是 低 效 的 。 不 过 ， 如 果 图 是 密集 的 ， 邻 接 矩 阵 的 比例 常数 
将 比邻 接 列表 和 邻接 图 的 要 更 小 。 事 实 上 ， 如 果 边 没有 辅助 数据 ， 布 尔 邻 接 和 矩阵 可 以 在 每 个 
边 的 位 置 使 用 一 个 位 ， 则 ALi, j] = True 当 且 仅 当 相关 的 (zw v) 是 一 条 边 。 





14.2.5 Python 实现 


在 本 节 中 ,我 们 提供 了 Graph ADT 的 实现 方法 。 我 们 的 实现 过 程 将 会 支持 有 向 或 者 无 
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向 的 图 ， 但 是 对 于 解释 说 明 的 情况 ， 我 们 首先 在 一 个 无 向 图 的 前 提 下 进行 描述 。 

我 们 使 用 了 邻接 图 表示 方法 的 变化 情况 。 对 于 每 个 顶点 v, 我 们 用 Python 字典 表示 次 
级 入 射 图 1(v)。 然 而 ,我们 不 能 明确 地 维持 列表 广 和 EE， 就 像 在 边 列表 表示 方法 中 的 原始 描 
述 一 样 。 列 表 玉 被 顶级 字典 代 蔡 ， 顶 级 字典 D 将 每 个 顶点 v 映射 到 其 和 人 射 图 0) TERE, 我 
们 可 以 通过 生成 字典 D 的 主键 的 集合 来 迭代 所 有 的 顶点 。 通 过 使 用 这 样 的 字典 DD 将 项 点 映 
射 到 次 级 入 射 图 ， 我 们 不 需要 对 作为 顶点 结构 的 一 部 分 的 人 射 图 维持 引用 。 同 样 ， 一 个 顶点 
不 需要 在 D 中 对 它 的 位 置 明确 地 维持 引用 ， 因 为 它 可 以 在 0(1) 的 预期 时 间 内 被 决定 。 这 很 
好 地 简化 了 我 们 的 实现 。 然 而 ,我 们 设计 的 结果 是 图 ADT 操作 在 最 坏 情况 下 运行 时 间 的 一 
些 界限 ， 并 在 表 14-1 中 给 出 ， 这 变 成 了 预期 的 界限 。 除 了 维持 列表 EE， 我 们 对 得 到 在 各 种 
各 样 的 人 射 图 中 发 现 的 边 的 联合 很 满意 。 在 理论 上 ， 它 的 运行 时 间 为 O(n + m) 而 不 是 严格 
的 O(m) 时 间 ， 因 为 字典 D 有 nn 个 主键 ， 即 使 一 些 入 射 图 是 空 的 。 

Graph ADT 的 实现 在 代码 段 14-1 一 代码 段 14-3 中 给 出 。Vertex 类 和 Edge 类 在 代码 段 14-1 
中 给 出 ,非常 简 单 ， 并 且 可 以 府 入 更 多 复杂 的 图 类 里 面 。 注 意 我 们 对 Vertex 和 Edge 都 定义 
了 哈 硕 的 方法 ， 这 样 那些 实例 可 以 被 当 作 主 键 用 于 Python 的 基于 哈 和 希 的 集合 和 字典 里 。 亚 
余 的 Graph 类 在 代码 段 14-2 和 代码 段 14-3 中 给 出 。 图 默认 情况 下 是 无 向 的 ,但 是 可 以 用 构 
造 函 数 里 可 选择 的 参数 声明 为 有 向 的 。 


代码 段 14-1 Vertex 和 Edge 类 (ME Graph 类 中 ) 


l j---——-——-—-----—-— nested Vertex class ——-—-—--—--—--—--— 
2 class Vertex: 

3 """ Lightweight vertex structure for a graph." "" 

4 _-slots__ = ' element' 

5 

6 def . init. (self, x): 

a """ Do not call constructor directly. Use Graph's insert vertex(x)." "" 
8 self. element — x 

9 
10 def element(self): 
11 """ Return element associated with this vertex." "" 

12 return self. element 

13 

14 def . hash. (self): # will allow vertex to be a map/set key 
15 return hash(id(self)) 

16 

17 dE nested Edge class -一 一 一 一 一 一 一 一 
18 class Edge: 

19 """ Lightweight edge structure for a graph." "" 
20 --Sslots.. = ' origin', ' destination', ' element' 
21 
22 def . init. (self, u, v, x): 
33 """ Do not call constructor directly. Use Graph's insert edge(u,v,x)." "" 
24 self. origin — u 
25 self. destination — v 
26 self. element — x 
27 
28 def endpoints(self): 
29 """ Return (u,v) tuple for vertices u and v.""" 
30 return (self. origin, self. destination) 
31 
32 def opposite(self, v): 
33 """ Return the vertex that is opposite v on this edge." "" 


34 return self. destination if v is self. origin else self. origin 


40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
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def element(self): 
""" Return element associated with this edge." "" 
return self. element 


def |. hash. (self): # will allow edge to be a map/set key 
return hash( (self. origin, self. destination) ) 


代码 段 14-2 Graph 类 的 定义 (在 代码 段 14-3 中 继续 ) 


class Graph: 
""" Representation of a simple graph using an adjacency map." "" 


def . init. (self, directed—False): 
""" Create an empty graph (undirected, by default) 


Graph is directed if optional paramter is set to True. 


self. outgoing = { } 
# only create second map for directed graph; use alias for undirected 
self. incoming = { } if directed else self. outgoing 


def is directed(self): 
"""Return True if this is a directed graph; False if undirected. 


Property is based on the original declaration of the graph, not its contents. 
return self. incoming is not self. outgoing # directed if maps are distinct 


def vertex. count(self): 
""" Return the number of vertices in the graph." "" 
return len(self. outgoing) 


def vertices(self): 
""" Return an iteration of all vertices of the graph." "" 
return self. outgoing.keys() 


def edge count(self): 
""" Return the number of edges in the graph." "" 
total = sum(len(self. outgoing[v]) for v in self. outgoing) 
# for undirected graphs, make sure not to double-count edges 
return total if self.is directed( ) else total // 2 


def edges(self): 
""" Return a set of all edges of the graph." "" 
result — set( ) # avoid double-reporting edges of undirected graph 
for secondary. map in self. outgoing.values( ): 
result.update(secondary. map.values( )) # add edges to resulting set 
return result 


def get. edge(self, u, v): 
""" Return the edge from u to v, or None if not adjacent." "" 
return self. outgoing[u].get(v) # returns None if v not adjacent 


def degree(self, v, outgoing— True): 
"""Return number of (outgoing) edges incident to vertex v in the graph. 


If graph is directed, optional parameter used to count incoming edges. 


adj — self. outgoing if outgoing else self. incoming 
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代码 段 14-3 Graph 类 的 定义 (上 接 代码 段 14-2 )。 我 们 为 了 简便 起 见 省 略 了 参数 的 错误 检查 
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50 return len(adj[v]) 

3l 

52 def incident edges(self, v, outgoing— True): 

53 """ Return all (outgoing) edges incident to vertex v in the graph. 

54 

55 If graph is directed, optional parameter used to request incoming edges. 
56 aa 

57 adj — self. outgoing if outgoing else self. incoming 

58 for edge in adj[v].values(): 

59 yield edge 

60 

61 def insert vertex(self, x=None): 

62 """|nsert and return a new Vertex with element x." "" 

63 v = self. Vertex(x) 

64 self. outgoing[v] = ( } 

65 if self.is directed( ): 

66 self. incoming[v] = { } # need distinct map for incoming edges 
67 return v 

68 

69 def insert edge(self, u, v, x=None): 

70 """ Insert and return a new Edge from u to v with auxiliary element x." "" 
71 e — self.Edge(u, v, x) 

72 self. outgoing[u][v] = e 

73 self. incoming[v][u] — e 


在 内 部 ， 我 们 通过 有 两 个 最 高 层级 的 字典 实例 outgoing fll incoming 来 管理 有 向 的 
情况 ， 以 便 outgoing[v] 映射 到 代表 Zulv) 的 男 一 个 字典 ，_incoming[v] 映射 到 7, (v) 的 表 
示 。 为 了 统一 对 有 向 图 和 无 向 图 进行 处 理 ， 我 们 继续 在 无 向 的 情况 下 使 用 _outgoing 和 _ 
incoming 标识 ， 作 为 同一 字典 的 别名 。 为 了 方便 ， 我 们 定义 一 个 通用 名 is_directed， 人 允许 我 
们 在 这 两 种 情况 下 进行 分 辨 。 

对 于 方法 degree fll incident edges， 每 个 都 接收 一 个 可 选 参 数 在 输出 和 传人 方向 进行 
区 分 ， 我 们 在 进程 开始 前 选择 适当 的 图 。 对 于 方法 insert _vertex， 我 们 对 每 个 新 的 顶点 v 
的 空 字典 的 outgoing[v] 进行 初始 化 。 对 于 无 向 的 情况 ， 这 个 步骤 并 不 是 必要 的 ， 因 为 _ 
outgoing 和 incoming 是 别名 。 我 们 将 方法 remove. vertex 和 remove edge 的 实现 过 程 作为 
练习 C-14.37 和 C-14.38。 


14.3 图 遍历 


希腊 神话 讲述 了 一 个 为 了 安置 一 部 分 是 牛 一 部 分 是 人 的 巨大 的 人 身 牛 头 怪物 而 精心 制作 
迷宫 的 故事 。 这 个 迷宫 非常 复杂 ， 以 至 于 没有 野兽 或 者 人 能 逃离 它 。 和 希腊 英雄 提 修 斯 在 国王 
女儿 阿 丽 雅 德 妮 的 帮助 下 ， 决 定 去 实现 图 的 遍历 算法 。 提 修 斯 将 捏 成 团 的 线 固定 在 迷宫 的 门 
上 ， 然 后 当 他 为 了 寻找 怪兽 而 穿 过 扭曲 的 通道 时 解 开 它 。 提 修 斯 明确 地 知道 什么 是 好 算法 ， 
因为 ， 当 他 寻找 到 并 战胜 野兽 之 后 ， 提 修 斯 可 以 轻松 地 跟随 这 条 线 走出 迷宫 并 返回 阿坝 雅 德 
妮 身 边 。 

形式 上 ， 遍 历 是 通过 检查 所 有 的 边 和 顶点 来 探索 图 的 系统 化 的 步骤 。 如 果 遍 历 访问 的 所 
有 顶点 和 边 与 它们 的 数目 成 正比 ， 即 在 线性 的 时 间 内 ， 则 遍历 是 高 效 的 。 

图 的 遍历 算法 是 回答 许多 涉及 可 达 性 概念 的 有 关于 图 的 问题 的 关键 ， 即 跟随 图 的 路 径 
时 ， 决 定 如 何 从 一 个 顶点 到 达 另 一 个 项 点。 在 无 向 图 中 处 理 可 达 性 的 有 趣 问 题 包括 以 下 几 个 
方面 : 
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© 计算 从 顶点 到 顶点 v 的 路 径 , 或 者 报告 这 样 的 路 径 存 在 。 
e 已 知 G 的 开始 顶点 s， 对 每 个 G 的 项 点 v 计 算 在 s 和 v 之 间 的 边 的 最 小 数目 的 路 径 ， 


或 者 报告 没有 这 样 的 路 径 存 在 。 

测试 是 否 G 是 连通 的 。 

如 果 G 是 连通 的 , 计算 G 的 生成 树 。 

计算 G 的 连通 分 支 。 

计算 G 中 的 循环 ， 或 者 报告 G 没有 循环 。 

解决 有 向 图 G 的 可 达 性 的 有 趣 问题 主要 包括 以 下 几 个 方面 : 


e 计算 从 顶点 到 顶点 v 的 有 向 路 径 , 或 者 报告 没有 这 样 的 路 径 存 在 。 
e 找 出 G 中 从 已 知 顶点 s 可 达 的 顶点 。 


e 判定 G 是 否 是 非 循 环 的 。 
e 判定 G 是 否 是 强 连 通 的 。 
本 节 剩 余 的 部 分 ， 我 们 展示 了 两 种 图 的 遍历 算法 ， 分 别 叫 作 深度 优先 搜索 和 广度 优先 搜索 。 


14.3.1 深度 优先 搜索 
在 本 节 我 们 考虑 第 一 个 遍历 算法 深度 优先 搜索 ( DFS)。 深 度 优先 搜索 对 测试 图 的 性 能 ， 
图 G 的 深度 优先 搜索 和 拿 着 一 条 绳子 和 一 钠 涂 料 在 不 迷路 的 情况 下 在 迷宫 中 漫步 很 类 似 。 


我 们 以 G 中 的 特殊 的 开始 项 点 s 开始 ， 通 过 将 绳子 的 一 端 固定 到 s 并 且 喷 涂 s 作 为 “访问 ”来 
初始 化 。 顶 点 s 是 我 们 现在 的 “当前 ”顶点 一 一 称 为 当前 顶点 us 那么 我 们 通过 考虑 一 条 人 射 





绘 过 ) 的 顶点 v， 则 忽略 这 条 边 。 相 反 ， 如 果 Cu, v) 指向 一 个 没有 被 访问 过 的 顶点 v, 那么 我 们 
展开 绳子 并 走向 vy。 然后 将 v 喷涂 成 “被 访问 过 ”"， 并 将 它 变 成 当前 项 点， 重复 上 面 的 计算 。 最 
终 ， 我 们 将 会 到 达 “ 尽 头 "， 即 对 于 当前 顶点 v， 所 有 入 射 到 v 的 边 指向 的 顶点 都 已 经 访问 过 了 。 
为 了 摆脱 这 种 僵局 ， 我 们 将 绳子 卷 起 来 ， 沿 着 带 我 们 去 v 的 边 原 路 返回 ， 直 到 先前 访问 过 的 顶 
A us 然后 我 们 将 x 作为 当前 顶点 ， 并 且 对 还 没有 考虑 过 的 所 有 人 射 到 x 的 边 重 复 上 述 计算 。 
AUR u 的 所 有 入射 边 都 指向 已 经 被 访问 过 的 顶点 ， 那 么 我 们 再 次 卷 起 绳子 ， 然 后 返回 到 从 那个 
顶点 来 且 去 向 z 的 顶点 ， 并 对 那个 项 点 进行 重复 的 步 又。 因此 ， 我 们 沿 着 迄今 为 止 追踪 到 的 路 
径 返 回 ， 直 到 找到 还 没有 被 探索 到 的 边 的 项 点， 找到 一 条 这 样 的 边 后 将 继续 遍历 。 当 回溯 过 程 
指引 我 们 返回 到 开始 顶点 s， 并且 没有 未 被 探索 的 入 射 到 s 的 边 的 时 候 ， 这 个 过 程 就 结束 了 。 

以 顶点 4 开始 的 深度 优先 搜索 遍历 的 伪 代 码 ( 见 代 码 段 14-4 ) 遵循 绳子 和 涂料 的 类 比 。 
我 们 用 递归 来 实现 字符 串 的 类 比 ， 并 且 假 设 有 原理 (的 类 比 ) 来 判定 是 否 一 个 顶点 或 者 一 条 
边 是 先前 探索 过 的 。 


代码 段 14-4 DFS 算法 
Algorithm DFS(G,u): {We assume u has already been marked as visited] 
Input: A graph G and a vertex u of G 
Output: A collection of vertices reachable from u, with their discovery edges 
for each outgoing edge e — (u,v) of u do 
if vertex v has not been visited then 
Mark vertex v as visited (via edge e). 
Recursively call DFS(G,v). 
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用 DFS 对 图 的 边 进行 分 类 

深度 优先 搜索 的 执行 可 以 用 来 分 析 图 的 结构 ， 这 依赖 于 在 遍历 的 过 程 中 被 探索 的 边 的 路 
{Zo DFS 进程 很 自然 地 识别 出 以 开始 顶点 s 作为 根 的 深度 优先 搜索 树 。 无 论 任 何 时 候 , 边 e= 
(u, v) 用 于 发 现代 码 段 14-4 中 的 新 顶点 v， 那 条 边 叫 作 发 现 边 或 者 树 的 边 ， 以 从 z 到 v 为 方 
向 。 所 有 DFS 实现 的 过 程 中 被 考虑 的 其 他 边 则 称 为 非 树 的 边 ， 可 以 带 我 们 到 先前 访问 过 的 
点 。 在 无 向 图 的 情况 下 ， 我 们 会 发 现 所 有 被 探索 的 非 树 的 边 连 通 了 当前 顶点 和 DFS 树 中 
它 的 祖先 。 我 们 将 这 样 的 边 称 为 back 边 。 当 对 一 个 有 向 图 执行 DFS 时 ,会 有 三 种 可 能 的 非 
Br: 

e back 边 ， 连 通 了 顶点 和 DFS 树 的 祖先 。 

e forward 边 ， 连 通 了 顶点 和 DFS 树 的 孩子 。 

e cross 边 ， 连 通 了 顶点 和 男 一 个 既 不 是 其 祖先 也 不 是 其 孩子 的 顶点 。 

有 向 图 的 DFS 算法 的 例子 说 明 展 示 在 图 14-8 中 ， 演 示 了 非 树 边 的 每 一 种 类 型 。 无 向 图 
的 DFS 算法 的 例子 说 明 展示 在 图 14-9 中 。 





图 14-8 有 向 图 的 DFS 的 例子 ， 以 顶点 (BOS) 开始 : a) 中 间 步 又 ， 首 先 ， 考 虑 一 条 边 指向 一 个 已 经 
访问 过 的 顶点 (DFW); b) 完全 的 DFS。 树 的 边 用 粗 线 表 示 ，back 边 用 虚线 表示 ，forward 
WA cross 边 用 带 点 的 线 表 示 。 每 个 顶点 的 访问 顺序 由 每 个 顶点 旁边 的 标签 指示 。 边 (ORD, 
DFW) 是 back 边 ,但 是 (DFW,ORD) 是 forward 边 。 边 (BOS, SFO) 是 forward Ù, (SFO, 
LAX) 是 cross 边 


深度 优先 搜索 的 特性 

我 们 对 深度 优先 搜索 算法 做 了 大 量 的 研究 ， 许 多 研究 都 是 通过 将 图 G 的 边 划 分 为 组 的 
方式 来 获得 的 。 我 们 从 最 重要 的 特性 开始 。 

命题 14-12 : 定义 G 为 以 顶点 5s 为 开始 的 DFS 遍历 已 经 执行 过 的 无 向 图 。 那 么 这 个 遍 
历 在 s 的 连通 分 支 中 访问 了 所 有 的 顶点 ， 并 且 发 现 边 生成 了 一 个 s 的 连通 分 支 的 生成 树 。 

证 明 : 假设 s 的 连通 分 支 中 至 少 有 一 个 顶点 w 没 有 被 访问 , v 是 从 s 到 w 的 一 些 路 径 中 
第 一 个 没有 被 访问 的 顶点 (有 v= w)。 因 为 v 是 这 条 路 径 的 第 一 个 未 被 访问 的 顶点， 它 有 一 
个 没有 被 访问 的 邻居 uu。 但 是 当 我 们 访问 w 时， 必须 考虑 边 Cu, v); Ak, v 是 未 被 访问 的 
可 能 是 不 正确 的 。 因 此 , Æ s 的 连通 分 支 中 没有 未 被 访问 的 顶点 。 

因为 仅仅 当 我 们 走向 一 个 未 被 访问 的 顶点 的 时 候 才 能 跟随 发 现 边 ， 所 以 永远 不 会 形成 这 
样 的 边 的 循环 。 因 此 ， 发 现 边 形成 了 一 个 没有 循环 的 连通 子 图 ， 是 一 棵 树 。 此 外 ， 这 是 一 个 
生成 树 ， 因 为 我 们 已 经 知道 ， 深 度 优先 搜索 在 s 的 连通 分 支 中 访问 了 每 个 顶点 。 a 
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图 14-9 以 顶点 A 开始 的 无 向 图 的 深度 优先 搜索 的 例子 。 我 们 假设 顶点 的 邻接 以 字母 的 顺序 考虑 。 
被 访问 过 的 顶点 和 探索 过 的 边 突出 显示 ， 发 现 边 用 实 线 表示 ， 非 树 (back) 边 用 虚线 表示 : 
a) 输入 图 ; b) 从 A 开始 追踪 直到 back 边 (G, C) 被 检查 到 的 树 的 边 的 路 径 ; c) PARA F; 
d) 返回 到 1 之 后 ， 重 新 恢复 边 (1, M), TE O 碰 上 另 一 个 尽头 ; e) 返回 到 G 之 后， 以 边 (G, L) 
继续 ， 然 后 在 五 碰 上 男 一 个 尽头 ; f) 最 后 的 结果 


命题 14-13 : 局 是 一 个 有 向 图 。 以 顶点 s 开始 的 在 GG 上 的 深度 优先 搜索 访问 了 所 有 的 从 
s 可 达 的 他 的 顶点 。 同 样 ，DFS 树 包 含 了 从 s 到 每 个 可 达 s 的 顶点 的 有 向 路 径 。 

WERA: 人 是 以 顶点 ss 开始 的 DFS 中 被 访问 的 G 的 顶点 的 子 集 。 我 们 想 展示 人 包含 了 s 
和 每 个 属于 VV 的 从 s 可 达 的 顶点 。 现 在 假设 (为 了 反驳 )， 有 一 个 从 s 可 达 的 顶点 w 不 在 到 
中 。 考 虑 从 s 到 w 的 一 条 有 向 路 径 ， 并 且 令 Cu, v) 是 带 我 们 从 V, 中 出 来 的 路 径 的 第 一 条 边 ， 
Made VPA, BÆ v PE Vo DFS Slik u Bf, "ETRAS You 的 所 有 输出 边 ， 因 此 必须 
WwW (u,v) 到 达 顶 点 vo AIE, v 应 该 在 VF, MARISTI. AE, V 必须 包含 
每 一 个 从 s 可 达 的 顶点 。 

我 们 通过 算法 步 又 的 归纳 证 明了 第 二 个 事实 。 我 们 声明 发 现 边 (uw, v) 都 是 可 识别 的 ， 
TE DFS 树 中 从 s 到 v 存 在 有 向 路 径 。 因 为 必须 在 先前 被 发 现 ， 从 s 到 4 存在 一 条 路 径 ， 因 
此 通过 将 边 Qu, v) 附加 到 该 路 径 ， 我 们 有 从 s 到 v 的 有 向 路 径 。 m 

需要 注意 的 是 ， 因 为 back 边 总 是 连通 顶点 v 和 先前 访问 的 顶点 的 x， 所 以 每 个 back 边 
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暗示 了 G 中 的 一 个 由 到 v 的 发 现 边 加 上 back 边 (u, v) 构成 的 循环 。 
深度 优先 搜索 的 运行 时 间 
就 运行 时 间 而 言 ， 深 度 优 先 搜索 是 遍历 图 的 高 效 方法 。 需 要 注意 的 是 ， 对 每 一 个 顶点 
DFS 至 多 被 调用 一 次 (因为 它 会 被 标记 为 被 访问 过 )， 并 且 因 此 对 一 个 无 向 图 来 说 每 条 边 至 
多 被 检查 两 次 ， 一 次 来 自 它 的 每 个 端点 ， 并 且 从 它 的 原始 顶点 开始 ， 一 个 有 向 图 至 多 有 一 
次 。 如果 我 们 让 n, < n 作为 项 点 s 的 可 达 顶 点 的 数目 ，ms s m 作为 这 些 顶 点 的 人 射 边 的 数 
A, Ms 开始 的 DFS 的 运行 时 间 为 Oln + ms)， 给 出 以 下 满足 的 条 件 : 
e 用 数据 结构 表示 图 ， 通 过 花费 O(deg(v)) 时 间 的 incident edges(v) 来 创建 和 迭代 ， 并 
H e.opposive(v) 方法 花费 O(1) 时 间 。 邻 接 列 表 结 构 就 是 这 样 的 结构 ， 但 是 邻接 矩阵 
结构 不 是 这 样 的 。 
e 我 们 有 一 种 方法 来 “标记 ”被 探查 的 顶点 或 边 ， 并 且 测 试 在 0(1) 时 间 是 否 已 经 探索 
了 顶点 的 边 。 我 们 在 下 一 节 讨论 实现 这 个 目标 的 DFS 实现 方式 。 
已 知 上 面 的 假设 ,我 们 可 以 解决 很 多 有 意思 的 问题 。 
命题 14-14: 定义 已 是 一 个 有 nn 个 顶点 和 mm 条 边 的 无 向 图 。 GH DFS 遍历 可 以 在 O(n 十 
m) 时 间 内 执行 完 ， 并 且 可 以 在 O(n+m) 时 间 内 被 用 来 解决 下 面 的 问题 : 
e 计算 G 的 两 个 已 知 顶点 之 间 的 路 径 (如 果 有 一 条 存在 的 话 )。 
e 测试 G 是 否 是 连通 的 。 
e 计算 G 的 生成 树 (如 果 G 是 连通 的 )， 
e 计算 G 的 连通 分 支 。 
e 计算 G 的 循环 ， 或 者 报告 G 没有 循环 。 
命题 14-15 : 定义 G 是 一 个 有 nn 个 顶点 和 加 条 边 的 有 向 图 。 口 的 DFS 遍历 可 以 在 O(n 
+m) 的 时 间 内 执行 完 ， 并 且 可 以 在 Oln + m) 的 时 间 内 用 来 解决 以 下 问题 : 
e 计算 的 两 个 已 知 顶点 之 间 的 有 向 路 径 (如 果 有 一 个 存在 的 话 )。 
计算 从 已 知 的 顶点 s 可 达 的 局 的 顶点 的 集合 。 
测试 是 否 是 强 连 通 的 。 
计算 已 的 有 向 循环 ， 或 者 报告 已 是 非 循环 的 。 
计算 人 的 传递 闭 包 ( 见 14.4 节 )。 
命题 14-14 和 命题 14-15 的 证 明 依赖 于 将 DFS 算法 稍微 修改 的 版 本 作为 子 程序 的 算法 。 
我 们 将 会 在 本 节 的 剩余 部 分 探索 一 些 扩展 。 
14.3.2 深度 优先 搜索 的 实现 和 扩展 
我 们 从 提供 基本 深度 优先 探索 算法 的 Python 实现 开始 ， 伪 代码 的 原始 描述 在 代码 
段 14-4 Fo DFS 功能 呈现 在 代码 段 14-5 中 。 
代码 段 14-5 ”以 指定 的 项 点 v 开 始 的 图 的 深度 优先 搜索 的 递归 实现 


def DFS(g, u, discovered): 
""" Perform DFS of the undiscovered portion of Graph g starting at Vertex u. 


discovered is a dictionary mapping each vertex to the edge that was used to 
discover it during the DFS. (u should be "discovered" prior to the call.) 
Newly discovered vertices will be added to the dictionary as a result. 


OU d 5utT— 


3 
8 forein g.incident_edges(u): # for every outgoing edge from u 
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9 v = e.opposite(u) . 

10 if v not in discovered: # v is an unvisited vertex 

11 discovered[v] — e # e is the tree edge that discovered v 
12 DFS(g, v, discovered) # recursively explore from v 


为 了 追踪 哪个 顶点 被 访问 过 并 建立 生成 DFS 树 的 表示 ， 我 们 的 实现 引入 了 叫 作 
discovered 的 第 三 个 参数 。 这 个 参数 应 该 是 Python 字典 ， 可 以 将 图 的 顶点 映射 到 用 于 发 现 那 
个 顶点 的 树 的 边 。 在 此 ， 我们 假设 源 顶 点 u 作为 字典 的 主键 产生 ，None 作为 它 的 值 。 因 此 ， 
调用 可 以 像 下 面 这 样 开始 遍历 : 


result = (u : None] # a new dictionary, with u trivially discovered 
DFS(g, u, result) 


字典 为 两 个 目的 服务 。 内 在 地 ， 该 字典 提供 了 用 于 识别 访问 的 顶点 的 机 制 ， 因 为 顶点 将 
会 作为 主键 出 现在 字典 中 。 外 部 地 ，DFS 函数 在 其 继续 进行 时 添加 这 个 字典 ， 因 此 字典 里 的 
值 是 进程 结论 中 的 DFS 树 的 边 。 

因为 字典 是 基于 喻 希 的 ， 测 试 if v not in discovered 和 记录 步骤 discovered[v] = e 在 O(1) 
期 望 时 间 内 运行 ， 而 不 是 最 坏 情况 下 的 时 间 。 实 际 上 ， 这 是 一 个 我 们 愿意 接受 的 妥协 ， 但 是 
它 违反 了 算法 的 正式 的 分 析 。 如 果 我 们 假设 项 点 可 以 用 0 到 n -1 进行 编号 ， 那 么 这 些 数字 
可 以 用 来 作为 基于 数组 的 查找 表 的 索引 而 不 是 基于 哈 希 的 映射 。 或者， 我 们 可 以 存储 每 一 个 
顶点 的 发 现状 态 并 且 将 树 的 边 直 接 关联 成 项 点 距离 的 一 部 分 。 

从 U 到 Vv 的 路 径 重 建 

我 们 可 以 使 用 基本 DFS 函数 作为 一 个 工具 来 鉴定 从 顶点 x 通 往 > 的 (有 向 ) 路 径 (如 
E v EM u 可 达 的 )。 这 个 路 径 可 以 很 容易 地 通过 遍历 期 间 记 录 在 发 现 字典 里 的 信息 而 重建 。 
代码 段 14-6 提供 了 在 w 到 v 的 路 径 中 产生 的 顶点 的 顺序 列表 的 二 级 函数 的 实现 。 


代码 段 14-6 ”重建 u 到 Vv 的 有 向 路 径 的 函数 ， 给 出 了 从 u FRR DFS 的 发 现 的 踪迹 。 这 个 函数 返回 
了 路 径 中 顶点 的 顺序 列表 


1 def construct. path(u, v, discovered): 

2 path = [] # empty path by default 

3 if v in discovered: 

4 # we build list from v to u and then reverse it at the end 

5 path.append(v) 

6 walk — v 

7 while walk is not u: 

8 e — discovered[walk] # find edge leading to walk 
9 parent — e.opposite(walk) 

10 path.append(parent) 

11 walk — parent 

12 path.reverse( ) # reorient path from u to v 
13 return path 


为 了 重建 这 条 路 径 ， 我 们 从 这 条 路 径 的 最 后 开始 ， 检 查 发 现 字 典 以 决定 哪 条 边 被 用 来 到 
达 顶 点 7， 以 及 那 条 边 的 另 一 个 顶点 是 什么 。 我 们 将 那个 顶点 加 入 一 个 列表 ， 然 后 重复 这 个 
进程 以 决定 哪 条 边 被 用 来 发 现 。 一 旦 我 们 追踪 到 了 返回 开始 顶点 zx 的 所 有 的 路 ， 就 可 以 颠倒 
列表 使 得 它 从 u 到 v 被 正确 地 调整 ， 然 后 将 它 返 回 给 调用 者 。 这 个 进程 的 花费 时 间 和 路 径 的 
长 度 成 正比 ， 因 此 它 在 O(n) 的 时 间 内 运行 (最初 还 有 调用 DFS 花费 的 时 间 )。 

连通 性 的 测试 

我 们 可 以 用 基本 DFS 函数 去 判定 图 是 否 是 连通 的 。 在 无 向 图 的 情况 下 ,我 们 在 任意 的 
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顶点 简单 地 开始 深度 优先 搜索 ， 然 后 测试 是 否 len(discovered) 和 结论 中 的 n 相等 。 如 果 图 是 
连通 的 ， 那 么 根据 命题 14-12， 所 有 的 顶点 都 能 被 发 现 ; 相反 ， 如 果 图 是 不 连通 的 ， 那 么 必 


须 至 少 有 一 个 顶点 v Riku, 而且 将 不 会 被 发 现 。 
对 于 有 向 图 忆 ， 我 们 可 能 希望 测试 它 是 否 是 强 连通 的 ， 即 是 否 对 每 一 对 顶点 Hv. u 


能 到 达 v JEH. v 能 到 达 x。 如 果 我 们 从 每 个 顶点 对 DFS 开始 一 个 独立 的 调用 ， 便 可 以 判定 是 
否 是 这 种 情况 ,但 是 个 调用 组 合 运 行 的 时 间 为 O(n(n + m))。 然 而 ,我 们 可 以 比 这 更 快 地 
判定 GCG 是否 是 强 连通 的 ， 仅 仅 需 要 两 次 深度 优先 搜索 。 

我 们 通过 对 以 任意 项 点 s 开始 的 有 向 图 G 执行 深 度 优先 搜索 开始 。 如 果 根 据 这 次 遍 
历 G 中 的 任何 一 个 顶点 都 没有 被 访问 ， 并且 不 可 达 s， 那么 图 不 是 强 连通 的 。 如 果 第 一 次 
深度 优先 搜索 访问 了 G 的 每 个 顶点 ， 然 后 我 们 需要 检查 是 否 s 从 其 他 所 有 顶点 都 可 达 。 在 
概念 上 ， 我 们 可 以 通过 复制 图 G 来 完成 ,但 是 要 在 所 有 边 相 反 的 方向 上 。 在 反 向 图 中 以 
s 开始 的 深度 优先 搜索 将 会 到 达 可 能 到 达 原 始 图 中 的 s 的 每 个 顶点 。 实 际 上 ， 比 制作 一 个 
新 的 图 更 好 的 方法 是 重新 实现 一 个 版 本 的 DFS 方法 ， 该 方法 将 所 有 输入 边 循环 到 当前 项 
点 ， 而 不 是 所 有 的 输出 边 。 因 为 该 算法 仅仅 做 了 两 次 G 的 DES 遍历 ， 所 以 它 的 运行 时 间 是 
O(n + m)» 

计算 所 有 的 连通 分 支 

当 图 是 不 连通 的 时 候 ， 我们 的 下 一 个 目标 是 识别 出 无 向 图 的 所 有 连通 分 支 ， 或 者 有 问 图 
的 强 连通 分 支 。 我 们 首先 讨论 无 向 的 情况 。 

如 果 DFS 的 初始 调用 不 能 到 达 图 的 所 有 顶点， 我 们 可 以 在 那些 未 被 访问 的 顶点 重新 开 
始 一 个 新 的 DFS 调用 。 这 种 综合 DFS_complete 方法 的 实现 在 代码 段 14-7 中 给 出 。 


代码 段 14-7 返回 全 部 图 的 DFS 森林 的 高 级 函数 


def DFS complete(g): 
""" Perform DFS for entire graph and return forest as a dictionary 


(Vertices that are roots of a DFS tree are mapped to None.) 


l 
2 
3 
4 Result maps each vertex v to the edge that was used to discover it. 
5 
6 


7 ~~ forest = { } 

8 for u in g.vertices( ): 

9 if u not in forest: 

10 forest[u] = None # u will be the root of a tree 
11 DFS(g, u, forest) 

12 return forest 


RK DFS complete 函数 对 原始 DFS 函数 进行 了 多 次 调用 ,但 调用 DFS complete 花费 
的 总 时 间 为 O(n + m)。 对 于 一 个 无 向 图 ， 回 想 我 们 最 初 的 分 析 ， 对 以 顶点 s 开始 的 DFS 的 
单独 调用 的 运行 时 间 为 O(n, + m), HP n M s 可 达 的 顶点 的 数目 ，m, 是 这 些 顶 点 的 人 射 
边 的 数目 。 因 为 每 一 次 DFS 的 调用 探索 了 不 同 的 分 支 ，n; +m, 的 总 和 是 n+m。0O(n+m) 的 
总 界限 也 可 以 应 用 于 有 向 的 情况 ， 即 使 可 达 顶 点 的 集合 不 一 定 是 不 相交 的 。 然 而 ， 因 为 相同 
的 发 现 字 典 对 所 有 的 DFS 调用 作为 一 个 参数 传递 ， 我 们 知道 DFS 子 程序 对 每 个 项 点 只 调用 
一 次 ， 那 么 在 这 个 过 程 中 每 个 输出 边 仅仅 只 被 探索 一 次 。 

DFS complete 函数 可 以 被 用 来 分 析 无 向 图 的 连通 分 支 。 发 现 字典 的 返回 代表 整个 图 的 
DFS 森林 。 我 们 称 之 为 森林 而 不 是 树 ， 因 为 图 可 能 是 不 连通 的 。 连 通 分 支 的 数目 可 以 通过 用 
None 作为 发 现 边 (这 些 是 DFS 树 的 根 ) 的 发 现 字 典 中 顶点 的 数目 来 判定 。 核 心 DFS 方法 的 
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微小 的 修正 被 用 来 在 发 现 项 点 时 标记 该 项 点 的 分 支 数 目 ( 见 练习 C-14.44 ) 。 

找到 一 个 有 向 图 的 强 连通 分 支 的 情况 更 复杂 。 存 在 在 O(n + m) 时 间 内 计算 这 些 连 通 分 
支 的 方法 ， 使 用 两 次 单独 的 深度 优先 搜索 遍历 ， 但 是 细节 不 在 本 书 的 范围 内 。 

用 DFS 发 现 循环 

对 于 无 回 的 和 有 向 的 图 来 说 ， 循 环 的 存在 当 且 仅 当 和 图 的 DES 遍历 相关 的 back 边 存 
在 。 很 容易 发 现 ， 如 果 back 边 存 在 ， 通 过 从 祖先 的 孩子 得 到 back 边 并 且 跟 随 树 的 边 返 回 
到 祖先 ， 这 样 便 可 以 说 明 循 环 存在 。 相 反 ， 如 果 图 中 存在 循环 ， 那 么 必须 有 和 DFS 相关 的 
back 3] (尽管 这 里 没有 证 明 这 个 事实 )。 

在 算法 上 ， 在 无 向 的 情况 下 探索 back 边 是 容易 的 ， 因 为 所 有 的 边 不 是 树 的 边 就 是 back 
边 。 在 有 向 图 的 情况 下 ， 核 心 DFS 实现 的 细微 修改 需要 正确 地 将 非 树 的 边 分 类 为 back 边 。 
若 被 探索 的 有 向 边 指向 先前 访问 过 的 顶点 ， 我们 必须 认 出 该 顶点 是 否 是 当前 顶点 的 祖先 。 这 
需要 人 额外 的 记录 ,， 例如， 依据 DFS 的 递归 调用 是 否 依 旧 活 跃 来 标记 顶点 。 我 们 把 细节 留 作 
练习 C-14.43。 


14.3.3 ”广度 优先 搜索 


如 先前 部 分 中 所 描述 的 ， 深 度 优 先 搜 索 的 前 进 和 回溯 定义 了 通过 物理 上 的 跟踪 来 探索 
图 的 遍历 。 在 本 节 ， 我 们 考虑 另 一 种 遍历 图 的 连通 分 支 的 算法 ， 叫 作 广 度 优先 搜索 (BFS). 
BFS 算法 更 类 似 于 在 所 有 的 方向 上 发 送 以 协调 方式 共同 遍历 图 的 许多 探索 者 。 

BFS 以 回合 的 方式 进行 并 且 将 顶点 分 成 不 同 级 别 。BFS 以 顶点 s 开始 ， 它 的 级 别 是 0。 
在 第 一 轮 标 记 “ 被 访问 过 ”， 对 于 所 有 和 开始 顶点 s 邻近 的 顶点 一 一 这 些 顶 点 和 开始 有 一 步 
之 远 ， 我 们 将 其 置 为 级 别 1。 在 第 二 轮 ， 我 们 允许 所 有 的 探索 者 从 开始 顶点 走 两 步 (也 就 是 
边 ) 远 。 这 些 新 的 顶点 和 级 别 1 的 顶点 邻近 但 以 前 没有 被 设置 过 级 别 ， 现 在 将 其 置 为 级 别 2 
并 且 标 记 为 “被 访问 过 ”。 这 个 过 程 以 类 似 的 方式 继续 进行 ， 当 在 级 别 中 没有 新 的 顶点 被 找 
到 时 进程 结束 。 

BFS 的 Python 实现 在 代码 段 14-8 中 给 出 。 我 们 遵守 和 DFS( 代 码 段 14-5 ) 类 似 的 约定 ， 


了 BFS 遍历 。 


代码 段 14-8 ”以 任意 顶点 s 开始 的 图 的 广度 优先 搜索 的 实现 


def BFS(g, s, discovered): 
""" Perform BFS of the undiscovered portion of Graph g starting at Vertex s. 


discover it during the BFS (s should be mapped to None prior to the call). 


] 

2 

3 

4 discovered is a dictionary mapping each vertex to the edge that was used to 
5 

6 | Newly discovered vertices will be added to the dictionary as a result. 


7 
8 level = [s] # first level includes only s 

9 while len(level) > 0: 

10 next. level = [ ] # prepare to gather newly found vertices 
11 for u in level: 

12 for e in g.incident_edges(u): # for every outgoing edge from u 

13 v — e.opposite(u) 

14 if v not in discovered: # v is an unvisited vertex 

15 discovered[v] = e # e is the tree edge that discovered v 

16 next. level.append(v) # v will be further considered in next pass 


17 level — next level # relabel ‘next’ level to become current 





图 14-10 广度 优先 搜索 这 历 的 例子 ， 其 中 以 相 邻 顶点 的 字母 顺序 考虑 人 射 到 顶点 的 边 。 发 现 边 用 实 
线 表示 ， 非 树 的 (cross) 边 用 虚线 表示 : a) 从 A 开始 搜索 ; b) 发 现 级 别 1; c) 发 现 级 别 2; 
d) 发 现 级 别 3; e) 发 现 级 别 4; f) 发 现 级 别 5 


讨论 DFS 的 时 候 ， 我 们 将 非 树 的 边 的 分 类 描述 为 back 边 、( 连 通 一 个 顶点 和 它 的 一 个 
祖先 )、forword 边 (连通 另 一 个 顶点 和 它 的 一 个 祖先 ) 或 者 cross 边 (连通 一 个 顶点 到 男 一 
个 顶点 或 它 的 祖先 或 它 的 孩子 )。 对 于 无 向 图 的 BFS， 所 有 非 树 的 边 都 是 cross 边 ( 见 练习 
C-14.47 )。 对 于 有 向 图 的 BFS， 所 有 非 树 的 边 都 是 back 边 或 者 cross 边 ( 见 练习 C-14.48 ) 。 

BFS 遍历 算法 有 大 量 有 趣 的 特性 ， 我 们 在 接 下 来 的 命题 中 会 进一步 探索 。 最 显而易见 的 
是 ， 以 顶点 s 为 根 的 到 其 他 任何 顶点 v 的 广度 优先 搜索 树 的 路 径 就 边 的 数目 而 言 保 证 是 从 s 
F 的 最 短路 径 。 

命题 14-16 : 定义 G 是 一 个 无 向 或 者 有 向 图 ， 在 G 上 执行 了 以 顶点 8 为 开始 的 BFS 遍 
历 。 那 么 

e 遍历 访问 了 所 有 从 s 可 达 的 G 的 顶点 。 

e 对 每 个 在 i 阶层 的 顶点 v, Æ s fov) BFS 树 T 的 路 径 有 i 条 边 ， 并 且 任 何其 他 的 

A s Z] v ih G 的 路 径 至 少 有 i 条 边 。 

e wR (u,v) 是 不 在 BFS 树 的 边 ， 那 么 Vv 的 级 别 数字 至 多 为 1 并 且 比 的 级 别 数字 大 。 

我 们 把 这 个 命题 的 证 明 留 作 练 习 C-14.50。 

BFS 运行 时 间 的 分 析 和 DFS 的 很 类 似 ，BFS 运行 时 间 为 O(n + m), 或 者 更 特别 地 ， 如 果 
nn; 是 从 顶点 s 可 达 的 顶点 的 数目 ，m, < m 是 入 射 到 这 些 顶 点 的 边 的 数目 ， 则 运行 时 间 为 O(n, + 
m;)。 为 了 探索 整个 图 ， 这 个 进程 可 以 在 男 一 个 顶点 重新 开始 ， 和 代码 段 14-7 的 DFS_complete 
函数 类 似 。 同 样 ， 从 顶点 s 到 顶点 v 的 实际 路 径 可 以 使 用 代码 段 14-6 的 construct path 函数 重建 。 

命题 14-17 : 定义 G 是 一 个 有 nn 个 顶点 和 mm 条 边 ， 用 邻接 列表 结构 表示 的 图 ，G 的 
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BFS 遍历 需要 OO (n m) 时 间 。 

尽管 代码 段 14-8 中 BFS 的 实现 一 层 一 层 地 进行 ， 但 BFS 算法 同样 可 以 使 用 单个 的 
FIFO 队列 去 代表 搜索 的 当前 边 来 实现 。 在 队列 中 以 源 顶 点 开始 ， 我 们 重复 地 从 队列 的 前 面 
移出 顶点 并 在 队列 的 后 端 插入 任何 它 的 未 被 访问 的 邻近 点 〈( 见 练习 C-14.51 )。 

在 比较 DFS 和 BFS 的 性 能 的 过 程 中 ， 两 个 都 能 很 高 效 地 找到 从 给 定 源 可 达 的 顶点 的 集 
合 ， 然 后 判定 到 这 些 顶 点 的 路 径 。 然 而 ，BFS 可 保证 这 些 路 径 尽 可 能 少 地 使 用 边 。 对 于 无 向 
图 ， 两 个 算法 都 能 用 来 测试 连通 性 ， 识 别 连通 分 支 或 者 找 出 循环 。 对 于 有 向 图 来 说 ，DFS 算 
法 更 适合 一 些 任务 ， 例 如 在 图 中 寻找 有 向 循环 ， 或 者 识别 强 连通 分 支 。 


14.4 传递 闭 包 

我 们 已 经 看 到 图 的 遍历 可 以 用 来 回答 有 向 图 可 达 性 的 基本 问题 。 特 别 的 ， 如 果 你 对 在 图 
中 顶点 w 和 顶点 v 之 间 是 否 有 路 径 很 感 兴趣 ， 我 们 可 以 从 x 开始 执行 DFS 或 者 BFS 遍历 并 
且 观 察 是 否 v 会 被 发 现 。 如 果 用 一 个 邻接 列表 或 者 邻接 图 来 表示 一 个 图 ， 我 们 可 以 在 O(n + 
m) 的 时 间 内 回答 和 vw 的 可 达 性 〈 见 命题 14-15 和 命题 14-17 )。 

在 某 些 应 用 中 ， 我们 可 能 希望 更 高 效 地 回答 许多 可 达 性 的 需求 ， 在 这 种 情况 下 对 图 预计 
算 一 个 更 高 效 的 表示 方式 是 非常 值得 的 。 例 如 ， 这 个 服务 的 第 一 步 就 是 计算 起 点 到 终点 的 行 
驶 方向 ， 从 而 评定 终点 是 否 可 达 。 类 似 的 ,在 网 络 通信 中 ， 我 们 可 能 希望 能 够 快速 决定 从 一 
个 特别 的 点 到 另 一 个 点 之 间 是 否 能 流通 。 受 此 类 应 用 的 启发 ， 我 们 介绍 了 下 面 的 定义 。 有 向 
图 他 的 传递 闭 包 是 有 向 图 名， 使 得 全 的 顶点 和 仓 的 顶点 一 样 ， 并 且 无 论 是 否 从 x 到 v 有 一 条 
有 向 路 径 〈 包 括 (u, v) 是 原始 他 的 一 条 边 的 情况 )。 

如 果 一 个 图 用 邻接 列表 或 者 邻接 图 表示 ， 我 们 在 O(n(n + m)) 时 间 内 可 以 通过 从 每 一 个 
开始 项 点 进行 次 图 的 遍历 来 计算 它 的 传递 闭 包 。 例 如 ， 从 顶点 开始 的 DFS 可 以 被 用 来 
决定 从 x 到 所 有 顶点 的 可 达 性 ， 因 此 在 传递 闭 包 中 构成 了 以 开始 的 边 的 集合 。 

本 节 剩 余 的 部 分 ,我们 将 为 计算 有 向 图 的 传递 闭 包 探 索 一 种 替代 技术 ， 尤 其 是 当 有 向 图 
使 用 支持 在 OC) 时 间 内 的 get edge(u) 方法 查找 的 数据 结构 时 (例如 ， 邻 接 和 矩阵 结构 )， 这 种 技 
术 特 别 适合 。 定 义 一 个 有 个 顶点 和 m 条 边 的 有 向 图 G。 在 一 系列 的 界限 内 计算 G 的 传递 闭 
o WEG, = 已 。 任 意 地 将 已 的 顶点 编号 为 v/，v;,，…，vw。 然 后 开始 循环 计算 ， 从 1 开始 
循环 。 在 一 般 的 循环 kX， 我 们 用 G= G ,开始 构建 有 向 图 忆 ， 并 且 如 果 有 向 图 Gy ,同时 包含 (vis vi) 
和 (vi, vj) ET, GRIN (vi, vw)。 以 这 种 方式 ， 我 们 实施 的 简单 规则 会 呈现 在 接 下 来 的 命题 中 。 

命题 14-18: 对 于 i= 1,…, n, 当 且 仅 当 有 向 图 从 v; 8] vy; 有 一 条 有 向 路 径 时 ， 有 向 
AG, iA (vi vj)， 其 中 中 间 的 顶点 (如 果 任 何 ) 在 集合 {v1,…,w} Po HR, GAGs, 
GG 是 已 的 传递 闭 包 。 

命题 14-18 为 计算 G 的 依赖 于 一 系列 界限 的 每 个 @ 传 递 闭 包 提出 了 一 个 简单 算法 。 这 个 
算法 被 称 为 Floyd_Warshall 算法 ， 它 的 伪 代 码 在 代码 段 14-9 中 给 出 。 我 们 在 图 14-11 中 说 
明了 Floyd Warshall 算法 的 例子 。 


代码 段 14-9 Floyd Warshall 算法 的 伪 代 码 。 这 个 算法 通过 递增 地 计算 一 系列 有 向 图 ,人 … G, 
k=1, =, ne 来 计算 僻 的 传递 闭 包 全 
Algorithm FloydWarshall(G): 


Input: A directed graph G with n vertices 
Output: The transitive closure G* of G 





let v1, v2,..., v, be an arbitrary numbering of the vertices of G 


Go =G 
fork = 1 ton do 
Gy = Gri 


for all i, j in {1,...,} with i 4 j and i, j #k do 
if both edges (vj, v4) and (v, vj) are in Gr-1 then 
add edge (vi, vj) to Gx (if it is not already present) 
return G, 





e) p 
图 14-11 由 Floyd Warshall 算法 计算 的 有 向 图 的 序列 : a) 初始 化 有 向 图 G = GMA SES; 





b) HARG; o Gs d) G ©) Gs D Go HERG. = G, = Go WRAMAG, (v, 
vi) 和 (ve, vj). BEREH (v, wy)， 在 有 向 图 Gi 的 绘制 中 ,我 们 用 虚线 展示 边 (vi, vi) 和 (ve, 
v), ifi (vi, v) 用 粗 线 表示 。 例 如 , 在 b P, 边 (MIA，LAX) HI (LAX, ORD) 产生 了 新 的 


边 (MIA，ORD) 
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从 这 个 伪 代 码 中 ,假设 表示 G 的 数据 结构 在 0(1) 的 时 间 内 完成 get edge 和 insert edge 
方法 ， 那 么 我 们 可 以 轻松 地 分 析 Floyd Warshall 算法 的 运行 时 间 。 主 循环 执行 了 n 次 ， 内 部 
循环 考虑 每 O(n?) 对 顶点 ， 对 每 对 执行 一 个 固定 的 时 间 。 因 此 ，Floyd_Warshall 算法 的 总 运 
行 时 间 为 0(w)。 从 上 述 描述 和 分 析 中 我 们 可 以 立刻 得 出 下 列 命 题 。 

命题 14-19 : 定义 已 为 有 n 个 顶点 的 有 向 图 ， 并 用 支持 在 O(1) 时 间 内 查找 和 更 新 邻 
接 信息 的 数据 结构 来 表示 已 。 那 么 Floyd Warshall 算法 可 以 在 O(n’) 时 间 内 计算 局 的 传递 
mag. 

Floyd Warshall 算法 的 性 能 

渐 近 地 ， 一旦 从 每 个 顶点 去 计算 可 达 性 ，Floyd Warshall 算法 O(r?) 的 运行 时 间 
并 不 比重 复 地 运行 DFS 所 实现 的 好 。 然 而 ， 当 图 是 密集 的 ， 或 者 当 图 是 稀 玻 的 但 是 用 
一 个 邻接 矩阵 表示 的 时 候 ，Floyd_Warshall 算法 可 以 匹配 重复 的 DFS 的 渐 近 边界 (UL 
练习 R-14.12 ) 。 

Floyd Warshall 算法 的 重要 性 是 它 比 DFS 更 容易 实现 ， 并 且 在 实践 中 非常 快 ， 因 为 它 
在 渐 近 表示 法 中 隐藏 了 相对 较 少 的 低级 操作 。 这 个 算法 尤其 适合 邻接 矩阵 的 使 用 ， 因 为 单独 
的 位 可 以 用 于 指定 在 传递 闭 包 中 可 达 性 模型 为 方法 edge(u, v)« 

然而 ， 需 要 注意 的 是 ， 当 图 是 稀 朴 的 并 且 使 用 邻接 列表 或 者 邻接 图 表示 的 时 候 ，DFS 
的 重复 响应 产生 了 更 好 的 渐 近 性 能 。 在 这 种 情况 下 ， 一 个 单独 的 DFS 运行 时 间 为 O(n + m), 
因此 传递 闭 包 的 计算 时 间 为 O(n? + nm)， 更 好 的 情况 可 以 达到 O(n’). 

Python 实现 

我 们 总 结 了 Floyd Warshall 算法 的 Python 实现 ， 如 代码 段 14-10 所 示 。 尽 管 原始 算法 
用 一 系列 的 有 向 图 ，GG，…，G,， 进 行 描述 ， 我 们 对 原始 图 创建 了 一 个 单独 的 副本 (使 用 
Python 副本 模块 的 deepcopy 方法 )， 然 后 在 进行 Floyd_Warshall 算法 循环 的 时 候 重 复 地 癌 闭 
包 添 加 新 的 边 。 


代码 段 14-10 Floyd Warshall 算法 的 Python 实现 
def floyd_warshall(g): 


l 

2  """Return a new graph that is the transitive closure of g.""" 

3 closure — deepcopy(g) # imported from copy module 
4 verts — list(closure.vertices( )) # make indexable list 

5 n- len(verts) 

6 for k in range(n): 

7 for i in range(n): 

8 # verify that edge (i,k) exists in the partial closure 

9 if i |= k and closure.get edge(verts[i],verts[k]) is not None: 

10 for j in range(n): 

11 # verify that edge (k,j) exists in the partial closure 

12 if i != j != k and closure.get_edge(verts[k], verts[j]) is not None: 
13 # if (i,j) not yet included, add it to the closure 

14 if closure. get_edge(verts[i], verts[j]) is None: 

15 closure. insert_edge(verts[i], verts[j] ) 


16 return closure 


这 个 算法 需要 对 图 的 顶点 进行 规范 的 编号 ， 因 此 ， 我 们 在 闭 包 图 中 创建 了 一 系列 的 顶 
点 ， 然 后 按照 命令 对 列表 添加 索引 。 在 最 外 层 的 循环 中 ,我们 必须 考虑 所 有 的 i 和 j 的 对 。 
最 后 ， 我 们 仅仅 在 查实 i 被 选择 以 使 得 (vi, v) 存在 于 闭 包 的 当前 的 版 本 之 后 ， 通 过 对 所 有 的 
7 的 值 进 行 和 迭代 来 进行 完善 和 优化 。 
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14.5 有 向 非 循环 图 


没有 有 向 循环 的 有 向 图 在 许多 应 用 中 都 能 遇 到 。 这 样 的 有 向 图 经 常 被 叫 作 有 向 非 循环 
图 ， 或 者 简称 为 DAG。 这 样 的 图 的 应 用 主要 包括 以 下 几 个 方面 : 

e 学 士 学 位 课程 之 间 的 选修 课程 。 

e 面向 对 象 程序 的 类 之 间 的 继承 。 

e 工程 任务 之 间 的 行程 安排 的 约束 条 件 。 

我 们 在 下 面 的 例子 中 对 最 后 一 个 应 用 进行 了 更 深 的 探讨 。 

例题 14-20: 为 了 管理 一 个 巨大 的 工程 ， 将 它 分 解 为 更 小 的 任务 的 集合 是 非常 方便 的 。 然 而 ， 
任务 之 间 很 少 是 独立 的 ， 因 为 任务 之 间 存 在 行程 安排 的 约束 条 件 。( 例 如 ， 在 房屋 建筑 的 工程 中 ， 
订购 钉子 的 任务 明显 在 订购 露天 平台 屋顶 的 瓦 片 之 前 。) 明显 地 ， 行程 计划 的 约束 条 件 没有 循环 ， 
因为 那 将 会 使 得 工程 变 得 不 可 能 。( 例 如 ， 为 了 获得 工作 你 需要 去 获得 工作 经 验 ， 但 是 为 了 获得 
工作 经 验 你 又 必须 去 找到 工作 。) 行程 安排 的 限制 条 件 在 任务 能 够 被 履行 的 命令 下 强加 了 限制 条 
件 。 也 就 是 说 ， 如 果 限 制 规定 任务 a 必须 在 任务 b 开始 之 前 完成 ， 那 么 在 任务 执行 的 顺序 中 ，a 
必须 在 b 之 前 。 因 此 ， 如 果 我 们 将 任务 的 可 行 的 集合 建 模 为 一 个 有 向 图 的 顶点 ， 那 么 无 论 是 否 对 
u 的 任务 必须 在 对 v 的 任务 之 前 执行 ， 我 们 都 要 放置 一 个 有 向 边 ， 然 后 定义 一 个 有 向 非 循环 图 。 


拓扑 排序 


上 述 例子 产生 了 下 面 的 定义 。 定 义 G 是 及 n 个 顶点 的 有 向 图 。 忆 的 拓扑 排序 是 对 避 的 每 
条 边 (vi, v) 来 说 G 的 项 点 的 顺序 v,/,，…，v,， 这 种 情况 下 i<j。 也 就 是 说 ， 拓 扑 排 序 是 一 种 
排序 ， 使 得 G 的 任何 有 向 路 径 以 增加 的 顺序 遍历 顶点 。 需 要 注意 的 是 一 个 有 向 图 可 能 不 止 有 
一 个 拓扑 排序 COLA 14-12 )。 





图 14-12 ”相同 非 循环 有 向 图 的 两 种 拓扑 排序 


命题 14-21: 他 有 一 个 拓扑 排序 当 且 仅 当 它 是 非 循环 的 。 

证 明 : 这 个 必要 性 (声明 中 的 “ 当 且 仅 当 ”部 分 ) 非常 容易 论证 。 假 设 G 具 有 拓扑 排序 。 
假设 (ATR) GRA (vq. va. Civis cns. (vsus vu). 的 组 合 能 构成 循环 。 因 为 拓扑 
排序 ,我 们 必须 有 ipee < ii< in 这 明显 是 不 可 能 的 。 因 此 ,已 必 须 是 非 循环 的 。 

我 们 现在 考虑 条 件 的 充分 性 (“如果 ” 部 分 )。 假 设 已 是 非 循环 的 。 我 们 将 会 为 如 何 为 已 


建立 拓扑 排序 给 出 算法 说 明 。 因 为 C 是 非 循 环 的 ，G 必须 有 一 个 没有 输入 边 的 顶点 ( 即 入 度 
为 0)。 定 义 vv 为 这 样 的 一 个 顶点 。 事 实 上 ， 如 果 vi 不 存在 ,那么 从 任意 的 开始 顶点 追踪 一 
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BR v, 和 它 的 传 出 边 ， 产 生 的 有 向 图 依旧 是 无 循环 的 。 因 此 ， 产生 的 有 向 图 同样 有 没有 传 
入 边 的 顶点， 然后 我 们 让 vo 成 为 这 样 的 项 点。 通过 重复 这 个 进程 直到 有 向 图 变 成 空 的 ， 我 
们 获得 也 的 顶点 的 顺序 mm，…，we 因为 上 述 解 释 ， 如 果 (vi, v) 是 局 的 一 条 边 ， 那 么 在 vj 
可 以 被 删除 之 前 ，vi 必须 被 删除 ， 因 此 ，i<j。 所 以 ，vi,…, vn 是 一 个 拓扑 排序 。 m 
命题 14-21 的 证 明 为 有 向 图 计算 拓扑 顺序 提供 了 一 种 算法 ,我 们 称 为 拓扑 排序 。 在 代码 
段 14-11 中 展示 了 这 项 技术 的 Python 实现 ， 图 14-13 展示 了 该 算法 执行 的 例子 。 我 们 使 用 
名 为 incount 的 字典 来 实现 ， 将 每 一 个 顶点 v 映射 到 展示 了 vv 的 输入 边 的 当前 数目 的 计数 器 
上 ,不 包括 那些 先前 被 加 到 拓扑 顺序 的 顶点。 专门 地 ， 一 个 Python 字典 提供 O(1) 的 预期 时 
间 去 使 用 每 一 项 ， 而 不 是 最 坏 情 况 下 的 时 间 。 这 和 图 的 遍历 一 样 ， 如 果 顶 点 从 0 到 nn 一 1 被 
索引 ， 或 者 如 果 我 们 存储 计数 器 作为 顶点 的 一 个 元 素 ， 这 将 会 转换 成 最 坏 情况 下 的 时 间 。 


代码 段 14-11 ”拓扑 排序 算法 的 Python 实现 (我 们 在 图 14-13 中 展示 了 该 算法 的 例子 ) 


def topological_sort(g): 
""" Return a list of verticies of directed acyclic graph g in topological order 


1 

2 

3 

4 If graph g has a cycle, the result will be incomplete. 
"S: 

¢ 


» topo —[] # a list of vertices placed in topological order 

7 ready = [] # list of vertices that have no remaining constraints 
8  incount—í(] # keep track of in-degree for each vertex 

9  foruin g.vertices(): 
10 incount[u] = g.degree(u, False) # parameter requests incoming degree 
11 if incount[u] == 0: # if u has no incoming edges, 
12 ready.append(u) # it is free of constraints 

13 while len(ready) > 0: 

14 u = ready.pop( ) # u is free of constraints 

15 topo.append(u) # add u to the topological order 

16 for e in g.incident_edges(u): # consider all outgoing neighbors of u 
17 v = e.opposite(u) 

18 incount[v] —— 1 # v has one less constraint without u 
19 if incount[v] == 0: 
20 ready.append(v) 

2] return topo 


作为 一 种 副作用 ， 代 码 段 14-11 的 拓扑 排序 算法 同样 测试 是 否 已 知 的 有 向 图 G 是 非 循环 
Hj. 事实 上 ， 如 果 算 法 没有 对 所 有 顶点 进行 排序 就 结束 了 ， 那 么 没有 被 排序 的 项 点 的 子 图 必 
须 包 含 一 个 有 向 循环 。 

拓扑 排序 的 性 能 

命题 14-22: 定义 局 是 一 个 有 nn 个 顶点 和 m 条 边 的 使 用 邻接 列表 结构 表示 的 有 向 图 。 拓 
扑 排序 算法 使 用 了 O(n) 的 辅助 空间 ， 运 行 时 间 是 O(n + m)， 并 且 计 算 忆 的 拓扑 顺序 或 者 加 
入 一 些 顶 点 失败 ， 表明 局 中 存在 有 向 循环 。 

证 明 : 入 度 为 n 的 原始 记录 基于 degree 算 法 使 用 了 O(n) 的 时 间 。 也 就 是 说 当 w 从 
ready 列表 中 移 除 的 时 候 ， 顶 点 4 被 拓扑 排序 访问 了 。 顶 点 4 仅仅 当 incount(z) 为 0 时 被 访 
问 ， 并 且 任 何其 他 的 顶点 恰好 被 访问 一 次 。 该 算法 遍历 了 每 次 访问 的 每 个 顶点 的 所 有 传 出 
边 ， 因 此 它 的 运行 时 间 和 被 访问 的 顶点 的 传 出 边 的 数目 成 正比 。 和 命题 14-9 一 致 ， 运 行 时 
间 是 (n + 四)。 至 于 空间 的 使 用 ， 观 察 到 容器 topo, ready 和 incount 的 每 个 顶点 至 多 有 一 项 ， 
因此 使 用 了 O(n) 的 空间 。 A 
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图 14-13 topological sort (代码 段 14-11 ) 运行 的 例子 。 顶 点 附近 的 标签 展示 了 它 当 前 的 incount fH, 
以 及 在 产生 的 拓扑 顺序 中 的 最 终 排名 。 突 出 的 顶点 是 将 会 变 成 拓扑 顺序 中 的 下 一 个 顶点 的 
incout 等 于 0 的 顶点 。 虚 线 表示 已 经 被 检查 过 并 且 不 再 反映 在 incount 值 中 的 边 


14.6 最 短路 径 


正如 我 们 在 14.3.3 节 看 到 的 ， 广 度 优先 搜索 策略 可 以 用 来 在 连通 图 中 从 一 些 开 始 项 点 
到 每 一 个 其 他 顶点 寻找 最 短路 径 。 这 个 途径 在 每 条 边 和 其 他 任何 一 条 边 一 样 好 的 情况 下 有 意 
义 ， 但 是 也 有 许多 这 个 途径 并 不 恰当 的 情况 。 

例如 ， 我 们 可 能 想 使 用 图 去 表示 城市 间 的 路 ， 我 们 可 能 对 找到 旅行 穿越 城市 的 最 快 路 径 
很 感 兴趣 。 在 这 种 情况 下 ， 所 有 的 边 彼此 相等 可 能 并 不 合适 ， 因 为 一 些 城 际 的 距离 可 能 比 其 
他 的 大 许多 。 同 样 ， 我 们 可 以 使 用 图 来 表示 网 络 通信 【例如 互联 网 )， 我 们 可 能 对 在 两 台 计 
算 机 之 间 找 到 最 快 的 路 径 并 按 该 路 线 发 送 数据 包 很 感 兴趣 。 在 这 种 情况 下 ， 所 有 的 边 彼此 相 
等 可 能 就 不 是 很 正确 了 ， 因 为 计算 机 网 络 中 的 一 些 连接 通常 比 其 他 (例如 ， 一 些 边 可 能 代表 
低 带 宽 的 连接 ， 而 其 他 可 能 代表 高 速 、 光 纤 的 连接 ) 连接 快 很 多 。 因 此 ， 考 虑 那些 边 的 权重 
并 不 相等 的 图 是 很 自然 的 。 
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14.6.1 加权 图 


加 权 图 是 一 种 有 和 每 条 边 e 相关 联 的 数值 的 〈 例 如， 数字 ) 标签 的 图 ， 这 个 数字 标签 称 为 
W e 的 权重 。 对 于 e= (u,v), id wu, =we)。 我 们 在 图 14-14 中 展示 了 一 个 加 权 图 的 例子 。 
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图 14-14 加 权 图 示例 ， 其 中 ， 顶 点 代表 主要 美国 机 场 ， 边 权重 代表 以 英里 为 单位 的 距离 。 这 个 图 
在 JFK 到 LAX 之 间 有 一 条 总 权重 为 2777 英里 (经 过 ORD 和 DFW) 的 路 径 。 这 是 JFK 到 
LAX 在 图 中 最 小 权重 的 路 径 


在 加 权 图 中 定义 最 短路 径 
定义 G 为 加 权 图 。 路 径 的 长 度 (或 者 权重 ) 是 己 的 边 的 权重 的 总 和 。 即 如 果 忆 =((vu 
vi), v v3), s, (Ve-1, VE), ABA P 的 长 度 (表示 为 w CP)) 被 定义 为 


W(P) orn) 


在 图 中 顶点 到 顶点 v 之 间 的 距离 表示 为 dlu, v), BM u 到 vv 之 间 长 度 最 短 的 路 径 (也 
称 为 最 短路 径 )， 如 果 这 样 的 路 径 存在 的 话 。 

人 们 经 常 使 用 约定 : 如 果 在 G 中 从 w 到 v 之 间 没 有 任何 路 径 ， 则 d(u, v) = %。 即 使 在 
G 中 从 x 到 > 有 路 径 ， 然 而 ， 如 果 在 G 中 有 总 权重 为 负 的 循环 ， 则 w 到 v 的 距离 可 能 没有 定 
义 。 例 如 ,假设 项 点 在 G 中 表示 城市 ，G 中 边 的 权重 表示 从 一 个 城市 去 另 一 个 城市 需要 花 
费 多 少 钱 。 如 果 有 人 愿意 实际 支付 从 JFK 到 ORD 的 费用 ,那么 边 (JFK, ORD) 的 “费用 ” 
是 负 的 。 如 果 另 外 一 些 人 愿意 支付 从 ORD 去 JFK 的 费用 ， 那 么 在 G 中 会 有 一 个 负 权 重 的 循 
环 并 且 距 离 不 会 再 被 定义 。 即 任何 人 现在 都 可 在 图 中 从 任何 城市 A 到 另 一 个 城市 B 之 间 建 
一 条 路 径 (有 循环 ) : 首先 去 JFK， 并 且 在 去 B 之 前 ,循环 和 他 想 从 JFK 到 ORD 然后 回来 
的 次 数 一 样 多 。 这 样 的 路 径 允 许 我 们 建立 任意 低 的 负 消 费 的 路 径 (并 且 在 过 程 中 获得 收益 )。 
但 是 距离 不 可 以 是 任意 低 的 负 的 数字 。 因 此 ， 我们 随时 可 以 使 用 边 的 权重 去 表示 距离 ， 必 须 
小 心 不 要 引入 任何 负 权 重 的 循环 。 

假设 给 定 了 一 个 加 权 图 G， 我 们 要 求 寻找 从 一 些 顶 点 s 到 G 中 的 其 他 顶点 的 最 短路 径 ， 
将 边 的 权重 看 作 距 离 。 在 本 节 ， 我 们 探索 寻找 所 有 这 样 的 最 短路 径 的 高 效 方式 (如果 它们 存 
在 的 话 )。 我 们 讨论 的 第 一 个 算法 非常 简单 ， 并 且 很 常见 ,假设 当 G 中 所 有 的 边 的 权重 是 非 
负 的 ( 即 对 每 一 个 G 中 的 边 e 都 有 we) 2 0)， 因 此 ,我 们 可 以 提前 知道 在 G 中 没有 负 权 重 
的 循环 。 当 所 有 的 权重 和 呈现 在 14.3.3 节 的 BES 遍历 算法 解决 的 一 样 的 时 候 ， 即 得 计算 最 
短路 径 的 特殊 情况 。 
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这 对 解决 依赖 于 贪心 算法 设计 模式 (13.4.2 3$) 的 唯一 来 源 问 题 是 一 个 有 趣 的 进展 。 记 
得 在 这 个 模式 中 我 们 通过 重复 地 在 每 个 可 用 的 和 欠 代 中 做 出 最 好 的 选择 来 解决 该 问题 。 这 个 范 
例 经 常用 于 当 我 们 试图 在 一 些 对 象 的 集合 中 优化 代价 函数 的 情况 。 我 们 可 以 在 集合 中 添加 目 
标 ， 一 次 添加 一 个 ， 并 且 总 是 选择 下 一 个 优化 那些 尚未 被 选择 的 目标 。 


14.6.2 Dijkstra 算法 


将 贪心 算法 模式 应 用 于 单 源 最 短路 径 的 主要 思想 是 从 源 顶 点 开始 执行 “加 权 ” 广 度 优 
先 算法 。 特 别 地 ， 我 们 可 以 使 用 贪心 算法 去 开发 一 个 算法 ,该 算法 迭代 地 从 s 中 增加 顶点 的 
“ 云 "， 其 中 顶点 按照 它们 与 s 的 距离 的 顺序 进入 云 。 因 此 ， 在 每 次 迭代 中 ， 下 一 个 被 选择 的 


顶点 是 和 s 很 接近 的 云 之 外 的 顶点 。 当 不 再 有 项 点 在 云 之 外 (或 者 云 之 外 的 顶点 不 再 和 云 之 
内 的 有 连接 )， 并 且 从 s 到 G 的 每 一 个 从 s 开始 可 达 的 顶点 都 有 最 短 的 路 径 的 时 候 ， 该 算法 


就 结束 了 。 这 个 方法 非常 简单 ， 但 是 很 强大 ， 是 贪心 设计 模式 的 例子 。 对 单 源 应 用 贪心 算法 
时 ， 最 短路 径 问 题 产 生 了 Dijkstra 算法 。 


边 的 逐次 近似 

我 们 对 V PS ET DUX v xg X —^ bit D[v]， 用 来 在 G 中 对 从 s 到 vv 的 距离 做 近似 估 
算 。 这 些 标签 的 意思 是 D[v] 将 会 存储 我 们 到 目前 为 止 从 s 到 v 找 到 的 最 好 的 路 径 的 长 度 。 
Hc, MH v =s, D[Ís]- 0 并 且 D[v] = %， 然 后 我 们 定义 C 集 合 ， 它 是 顶点 的 “ 云 "， 初 
始 状 态 下 是 空 集合 。 在 算法 的 每 次 迭代 中 ， 我们 选择 了 不 在 C 中 有 最 短 的 D[w] 标签 的 顶点 
u， 然 后 将 u 放 进 C。( 一 般 来 说 ,我 们 将 使 用 优先 级 队列 来 选择 云 外 的 顶点 。) 在 第 一 次 迭代 


中 ,将 s 放 进 C 中 。 一旦 新 顶点 4 被 放 进 C 中 ， 接 下 来 更 新 每 个 邻近 w 并 且 在 C 之 外 的 顶 
点 的 标签 D[v]， 以 反映 这 样 的 事实 一 一 有 新 的 更 好 的 方式 通过 到 v。 这 个 更 新 操作 被 称 为 
松弛 过 程 ， 因 为 它 需要 一 个 旧 的 估计 并 检查 是 否 可 以 改进 以 接近 其 真实 值 。 特 定 的 边 松弛 操作 
如 下 : 
MAKA: if D[u] + w(u, v) < D[v] then 
D[v] = D[u] + w(u, v) 

算法 的 说 明和 例子 

我 们 在 代码 段 14-12 中 给 出 了 Dijkstra 算法 的 伪 代 码 ， 并 且 在 图 14-15 一 图 14-17 中 说 
明了 Dijkstra 算法 的 一 些 和 迭代 。 


代码 段 14-12 Dijkstra 算法 的 伪 代 码 ， 解 决 了 单 源 最 短路 径 问题 
Algorithm ShortestPath(G, s): 
Input: A weighted graph G with nonnegative edge weights, and a distinguished 
vertex s of G. 
Output: The length of a shortest path from s to v for each vertex v of G. 
Initialize D[s|] = 0 and D[v] = oo for each vertex v Z s. 
Let a priority queue Q contain all the vertices of G using the D labels as keys. 
while Q is not empty do 
{pull a new vertex u into the cloud} 
u = value returned by Q.remove. min() 
for each vertex v adjacent to u such that v is in Q do 
{perform the relaxation procedure on edge (u.v)] 
if D[u] + w(u,v) < D[v] then 
D{v] = Diu] +w(u,v) 
Change to D[v] the key of vertex v in Q. 
return the label D[v] of each vertex v 








a) b) 


图 14-15 加 权 图 的 Dijkstra 算法 的 执行 。 开 始 顶 点 是 BWI。 每 个 项 点 v 旁 边 的 框 存储 标签 Div] fk 
短路 径 树 的 边 被 画 成 了 粗 第 头 ， 对 每 个 “ 云 ” 之 外 的 顶点 u， 我 们 用 粗 线 表 示 将 4 拉 进 其 中 
的 当前 最 好 的 边 ( 下 接 图 14-16 ) 





图 14-16 Dijkstra 算法 的 例子 (上 接 图 14-15， 下 接 图 14-17) 











图 14-17 Dijkstra 算法 的 例子 (上 接 图 14-16) 


为 什么 这 种 算法 会 起 作用 

Dijkstra 算法 有 意思 的 方面 是 ， 此 刻 一 个 顶点 & 被 拉 进 C， 它 的 标签 D[u] 存储 了 从 u 到 
v 的 最 短路 径 的 正确 长 度 。 因 此 ， 当 算法 结束 的 时 候 ， 它 计算 了 从 s 到 G 的 每 个 顶点 最 短路 
ad ni 


最 短路 径 。 TAEMA: u 从 优先 队列 2 中 移 除 和 添加 到 云 ii KE. 从 s is u rs 
标签 D[u] 的 值 相 等 ?这 个 问题 的 答案 取决 于 在 图 中 没有 负 权 重 的 边 ， 因 为 它 允 许 贪心 算法 
正确 工作 ， 就 像 我 们 在 接 下 来 的 命题 中 展示 的 一 样 。 

命题 14-23: 在 Dijkstra 算法 中 ， 无 论 任何 时 候 顶 点 v 被 拉 进 云 中 ， 标 签 D[v] 和 从 8 到 
v 的 最 短路 径 的 长 度 d(s, v) 相等 。 


证 明 : 对 在 信 中 的 一 些 顶 点 v， 假设 D[v]>d(s, v)， 然 后 令 z 为 算法 拉 进 云 C 的 第 一 
顶点 (BIA O 中 移 除 )， 例 如 D[z]>d(s,z)。 从 s Biz ici P (否则 d(s, z) = oo = idi 


因此 我 们 要 考虑 当 z 被 拉 进 C 的 时 刻 ， 并 且 在 这 个 时 刻 让 3 成 为 P (从 s 到 z 时 ) 中 而 不 是 
C 中 的 第 一 个 顶点 。 令 x 为 路 径 P 了 中 yy 的 前 驱 (注意 x = s) COLE 14-18 )。 我 们 知道 ， 对 于 
我 们 选择 的 y, x 此 时 已 经 在 C 中 了 。 
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获取 第 一 个 "wrong” 顶 点 


已 获取 的 2 暗示 着 
T x" Diz] « Diy] 


oe O 
; D|z]»d (s,z) 






图 14-18 命题 14-23 的 证 明 的 原理 图 


此 外 ，D[x] = d(s, x)， 因 为 z 是 第 一 个 不 正确 的 顶点 。 当 x 被 拉 进 C 时 ， 我们 测试 了 

D[y]， 因 此 目前 可 以 得 到 
D{y] < D[x] + w(x, y) = d(s, x) + w(x, y) 
但 是 因为 ?是 从 到 = 的 最 短路 径 中 的 下 一 个 顶点 ， 这 意味 着 
DD] = (s, y) 
但 是 我 们 现在 处 于 正在 获取 z (不 是 y) 并 将 其 加 入 C 的 时 刻 ， 因 此 
D(z] < Diy] 

最 短路 径 的 子路 径 是 它 自 己 的 最 短路 径 是 非常 明确 的 。 因 此 ， 因 为 了 在 从 s 到 z 的 最 短 

路 径 上 ， 
d(s, y) + d(y, z) = d(s, z) 
此 外 ， 因 为 没有 负 权 重 的 边 ，4dQy, z) > 0。 所 以 ， 
D[z] < D[y] = ds, y) < d(s, y) + dQ, z) = ds, z) 

但 是 这 个 与 z 的 定义 相 矛 盾 ， 因 此 ， 不 可 能 有 这 样 的 项 点 z。 E 

Dijkstra 算法 的 运行 时 间 

在 本 节 ， 我 们 分 析 Dijkstra 算法 的 时 间 复 杂 度 。 分 别 用 n 和 m 表示 输出 图 G 的 顶点 和 
边 的 数目 。 假 设 边 的 权重 可 以 在 恒定 的 时 间 内 相 加 和 比较 。 我 们 在 代码 段 14-12 中 给 出 了 
Dijkstra 算法 的 概要 描述 ， 而 分 析 它 的 运行 时 间 需 要 给 出 更 多 执行 细节 。 特 别 地 ， 我 们 应 该 
指出 使 用 的 数据 结构 和 它们 是 如 何 实现 的 。 

我 们 首先 假设 用 邻接 列表 或 者 邻接 图 结构 表示 图 C。 这 个 数据 结构 允许 我 们 在 松弛 步 又 
和 它们 的 数量 成 正比 期 间 单 步调 试 邻近 w 的 顶点 。 因 此 ， 时 间 花 费 在 谋 入 的 for 循环 的 管理 
上 ， 该 循环 的 迭代 的 次 数 是 


> out deg(u) 


命题 14-9 的 时 间 是 0(m)。 外 部 while 循环 执行 了 O(n) 次 ， 因 为 在 每 次 迭代 的 过 程 中 一 
个 新 的 顶点 被 加 到 云 里 。 这 仍然 不 能 解决 算法 分 析 的 所 有 细节 ， 然 而 ， 我 们 必须 更 多 地 说 明 
如 何 实现 算 法 中 的 其 他 主要 数据 结构 一 一 优先 队列 0。 

回顾 代码 段 14-12 中 搜寻 优先 队列 的 操作 ， 我 们 发 现 n 个 顶点 最 初 就 被 插入 优先 队列 
里 。 因 为 这 些 是 唯一 的 插入 元 素 ， 所 以 队列 的 最 大 长 度 为 n。 在 while 循环 的 n 次 迭代 的 每 
次 迭代 中 ， 对 remove min 的 使 用 是 为 了 提取 具有 O 中 最 小 标签 D 的 顶点 wx。 然后 ， 对 zx 的 
每 个 邻居 v， 我 们 执行 边 的 逐次 近似 ， 然 后 可 以 潜在 地 在 队列 中 更 新 v 的 值 。 因 此 ， 我 们 实 
际 上 需要 一 个 适应 性 优先 级 队列 的 实现 ( 见 9.5 节 )， 在 这 种 情况 下 ， 使 用 方法 update(/, k) 





改变 顶点 的 值 ， 其 中 ,7 是 与 顶点 相关 的 优先 队列 条 目的 定位 器 。 在 最 坏 的 情况 下 ， 需 
要 对 图 的 每 条 边 进 行 这 样 的 更 新 。 总 的 来 说 ，Dijkstra 算法 的 运行 时 间 受 到 下 面 几 项 的 限制 : 

e n 插 入 Qo 

e 1 在 O 上 调用 remove_ min 方法 。 

e m 在 QO 上 调用 update 方法。 

如 果 O 是 一 个 被 当 作 堆 来 实现 的 适应 性 强 的 优先 队列 ， 那 么 上 述 每 个 操作 的 运行 时 间 
为 O(log n)， 所 以 Dijkstra 的 全 部 运行 时 间 为 O((n + m)log n)。 需 要 注意 的 是 ， 如 果 我 们 希 
望 将 运行 时 间 仅 仅 表 达 为 n 的 函数 ， 那 么 在 最 坏 的 情况 下 是 O(0 log n). 

现在 我 们 对 使 用 未 排 好 顺序 的 适应 性 强 的 优先 队列 考虑 一 个 可 替代 的 实现 ( 见 练习 
P-9.58 )。 这 当然 需要 我 们 花费 O(n) 的 时 间 去 提取 最 小 元 素 ， 但 是 它 提供 了 非常 快速 的 主键 
更 新 ， 提 供 的 2 支持 位 置 感知 的 项 (9.5.1 节 )。 特 别 地 ， 我 们 可 以 在 OU) 时 间 内 在 松弛 步 
又 实现 每 个 主键 值 的 更 新 一 一 一 且 在 O 中 定位 的 条 目 更 新 了 ， 就 可 以 很 容易 地 改变 主键 值 。 
因此 ， 这 个 实现 产生 了 O(n? + m) 的 运行 时 间 ， 因 为 G 很 是 简单 的 ， 所 以 可 以 简化 到 O(n’). 

两 种 实现 方式 的 比较 

在 Dijkstra 算法 中 ， 我 们 有 两 种 选择 去 实现 有 位 置 感知 项 的 适应 性 强 的 优先 队列 : HEK 
现 ， 它 的 运行 时 间 是 O(n + m)logn); 未 排序 的 序列 的 实现 ， 产 生 了 O(n’) 的 运行 时 间 。 这 
两 种 实现 的 编码 相对 简单 ， 在 编程 复杂 度 方面 的 需求 而 言 是 相等 的 。 这 两 种 实现 就 最 坏 情 况 
下 的 运行 时 间 的 常数 因子 而 言 同 样 是 相等 的 。 仅 仅 看 这 些 最 坏 情 况 下 的 时 间 ， 当 图 中 边 的 数 
量 很 小 的 时 候 CÓ m « nag n 的 时 候 )， 我 们 更 喜欢 堆 实 现 ， 而 当 边 的 数量 非常 大 的 时 候 (m > 
w/log n) 我 们 更 喜欢 序列 实现 。 

命题 14-24: 已 知 有 nn 个 顶点 和 m 条 边 的 有 权 图 ， 每 条 边 的 权重 是 非 负 的 ， 还 有 G 的 顶 
点 5s，Dijkstra 算法 计算 从 s 到 所 有 其 他 顶点 的 距离 时 最 好 的 情况 是 ON AA O((n + m) log n). 

我 们 注意 到 一 个 高 级 优先 级 队列 实现 ， 称 为 斐 波 那 契 堆 ， 它 可 以 用 于 在 Olm + n log n) 
时 间 内 实现 Dijkstra 算法 。 

用 Python 对 Dijkstra 算法 进行 编程 

Dijkstra 算法 的 伪 代 码 描述 已 经 给 出 ， 现 在 我 们 展示 执行 Dijkstra 算法 的 Python 代码 ， 
假设 我 们 给 出 一 个 边 元 素 是 非 负 数字 权重 的 图 。 算 法 的 实现 是 以 函数 shortest path. lengths 
的 形式 ， 它 把 图 和 指定 的 源 顶 点 作为 参数 ( 见 代码 段 14-13 )。 它 返回 一 个 名 为 cloud 的 字 
典 ， 映 射 每 一 个 从 源 可 达 的 顶点 v 到 它 的 最 短路 径 距 离 d(s, v)。 我 们 依赖 在 9.5.2 节 开 发 的 
AdaptableHeapPriorityQueue 作为 一 个 适用 性 强 的 优先 队列 。 


代码 段 14-13 Dijkstra 算法 对 从 单 源 计算 最 短路 径 距离 的 Python 实现 。 我 们 假设 边 eh 
e.element() 代表 那 条 边 的 权重 





def shortest. path. lengths(g, src): 
""" Compute shortest-path distances from src to reachable vertices of g. 


1 
2 
3 
4 Graph g can be undirected or directed, but must be weighted such that 
5 e.element() returns a numeric weight for each edge e. 
6 
7 
8 


Return dictionary mapping each reachable vertex to its distance from src. 


9  deítíl # d[v] is upper bound from s to v 
10 cloud = { } # map reachable v to its d[v] value 
ll pq = AdaptableHeapPriorityQueue( ) # vertex v will have key d[v] 

i12 pqlocator = ( } # map from vertex to its pq locator 
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14 # for each vertex v of the graph, add an entry to the priority queue, with 
15 # the source having distance 0 and all others having infinite distance 
16 for v in g.vertices( ): 


17 if v is src: 

18 d[v] = 0 

19 else: 

20 d[v] = float('inf') # syntax for positive infinity 

21 pqlocator[v] = pq.add(d[v], v) # save locator for future updates 


23 while not pq.is empty( ): 


24 key, u = pq.remove. min( ) 

25 cloud[u] — key # its correct d[u] value 

26 del pqlocator[u] # u is no longer in pq 

27 for e in g.incident edges(u): # outgoing edges (u,v) 

28 v = e.opposite(u) 

29 if v not in cloud: 

30 # perform relaxation step on edge (u,v) 

3l wet = e.element() 

32 if d[u] + wet < d[v]: # better path to v? 

33 d[v] = d[u] + wgt # update the distance 
34 pq.update(pqlocator[v], d[v], v) # update the pq entry 
35 

36 return cloud # only includes reachable vertices 


就 像 我 们 在 本 章 用 其 他 算法 完成 时 一 样 ， 用 字典 去 映射 顶点 到 相关 的 数据 (在 这 种 情况 
T. m v 到 它 的 距离 界限 Dv] 和 它 的 适应 性 强 的 优先 队列 定位 器 )。 这 些 字 典 的 元 素 期 望 
的 存 取 时 间 OC) 可 以 被 转换 成 最 坏 情 况 的 界限 ， 或 者 通过 对 顶点 从 0 Bl n — 1 进行 编号 作为 
列表 的 索引 来 实现 ， 或 者 通过 在 每 个 顶点 元 素 中 存储 信息 来 实现 。 

Dijkstra 算法 通过 对 除了 源 之 外 的 每 个 v 设 定 div] = % 开 始 。 我 们 用 Python 中 的 特殊 
{Hi float('inf ) 来 提供 表示 正 无 穷 大 的 数值 。 然 而 ， 我 们 在 通过 函数 返回 的 结果 云 中 避免 包括 
这 个 “无 穷 ” 距 离 的 顶点 。 可 以 通过 等 待 向 优先 级 队列 添加 顶点 直到 到 达 其 的 边缘 被 放宽 之 
后 ， 青 完全 避免 使 用 该 数字 限制 ( 见 练习 C-14.64 )。 

重建 最 短路 径 树 

代码 段 14-12 是 Dijkstra 算法 的 伪 代 码 描述 ， 代 码 段 14-13 是 我 们 的 实现 ， 对 每 个 顶点 
v 计算 值 d[v]， 那 是 从 源 顶 点 s 到 vv 的 最 短路 径 的 长 度 。 然 而 ,这 些 算法 的 形式 不 能 明确 地 
计算 获得 的 那些 距离 的 实际 路 径 。 从 源 顶 点 s 产生 的 所 有 最 短路 径 的 集合 可 以 被 简洁 地 表示 
为 最 短路 径 树 。 这 个 路 径 形 成 了 一 个 有 根 的 树 ， 因 为 如 果 从 s 到 v 的 最 短路 径 经 过 中 间 顶 点 
u， 它 必须 以 从 s 到 的 最 短路 径 开始 。 

在 本 节 ， 我 们 描述 了 以 源 s 为 根 的 最 短路 径 树 可 以 在 O(n + m) 的 时 间 内 被 重建 ， 给 出 
的 d[v] 值 的 集合 由 使 用 s 作为 源 的 Dijkstra 引入 。 当 我 们 表示 DFS 和 BFS 树 的 时 候 ， 将 会 
映射 每 个 顶点 ses 到 根 u (可 能 u = s)， 这 样 y 在 从 s 到 v 的 最短 路径 上 之 前 ,wu 立刻 变 成 
MA. WMR u 是 在 从 s 到 v 的 最 短路 径 上 在 v 之 前 的 顶点 ， 则 必须 

d[u] + w(u, v) = d[v] 

相反 ， 如 果 满 足 上 述 公 式 ， 那 么 从 s E u 的 最 短路 径 一 一 跟随 在 边 ( u,v) 之 后 的 一 一 是 
到 v 的 最 短路 径 。 

在 代码 段 14-14 中 对 重建 树 的 实现 便 依赖 于 这 个 逻辑 ， 对 每 一 个 顶点 "检测 输入 边 ， 寻 
找 一 个 (u, v) 满足 关键 方程 。 运 行 时 间 是 O(n + m)， 此 时 我 们 考虑 每 个 项 点 和 这 些 边 的 所 有 
输入 边 ( 见 命题 14-9 )。 





代码 段 14-14 ”重建 最 短路 径 的 Python 函数， 依赖 于 单 源 距 离 的 知识 


def shortest. path. tree(g, s, d): 


l 

2 '"" Reconstruct shortest-path tree rooted at vertex s, given distance map d. 
3 

4 Return tree as a map from each reachable vertex v (other than s) to the 

5 edge e—(u,v) that is used to reach v from its parent u in the tree. 

60" 

7 tree = { } 

8 for v in d: 

9 if v is not s: 

10 for e in g.incident_edges(v, False): # consider INCOMING edges 
11 u — e.opposite(v) 

12 wgt — e.element() 

13 if dv] 2— d[u] 十 wgt: 

14 tree[v] = e # edge e is used to reach v 


15 return tree 


14.7 最 小 生成 树 
假设 我 们 希望 在 一 个 新 的 建筑 物 中 使 用 最 少数 量 的 电费 来 连通 所 有 的 计算 机 。 我 们 可 以 


使 用 无 向 的 加 权 图 G 来 建 模 这 个 问题 ， 其 顶点 表示 计算 机 , XI Cu, v) 的 权重 w(u, v) 与 需要 
连接 计算 机 w 和 计算 机 v 的 电线 的 数量 相等 。 除 了 计算 从 一 些 特别 的 顶点 v 的 最 短路 径 ， 我 
们 还 对 寻找 包含 G 的 所 有 顶点 的 树 7 和 在 所 有 这 样 的 树 中 的 最 小 总 权重 感 兴趣 。 找 到 这 样 
的 树 的 算法 是 本 节 的 焦点 。 

问题 定义 

已 知 一 个 无 向 的 、 有 权重 的 图 G， 我 们 有 兴趣 找到 一 棵 树 T7， 它 包含 G 中 的 所 有 顶点 ， 
并 最 小 化 总 和 


w(T)- > w(u,v) 
(u,v)in T 

这 样 的 包括 连通 图 G 的 每 个 项 点 的 树 被 称 为 生成 树 ， 并 且 计算 一 棵 有 最 小 总 权重 的 生成 
树 7 的 问题 称 为 最 小 生成 树 ( MST) 问题 。 最 小 生成 树 问 题 的 高 效 算法 的 发 展 在 时 间 上 早 于 现 
代 计 算 机 科学 本 身 的 概念 。 在 本 节 ， 我 们 讨论 了 两 种 解决 MST 问题 的 经 典 算法 。 这 些 算 法 都 
是 贪心 算法 的 应 用 ， 在 前 面 的 章节 简短 地 计 i 仑 过 ， 依 赖 于 通过 迭代 地 获得 最 小 化 一 些 代价 函数 
的 对 象 去 选择 目标 ， 从 而 加 入 一 个 不 断 增长 的 集合 。 我 们 讨论 的 第 一 个 算法 是 Prim-Jarník 法 ， 
从 单个 根 节点 生成 MST， 它 和 Dijkstra 算法 的 最 短路 径 算 法 有 很 多 相似 的 地 方 。 我 们 讨论 的 第 
二 个 算法 是 Kruskal 算法 ， 通 过 按照 边 的 权重 的 非 递 减 顺 序 去 考虑 边 来 成 群 地 “生成 ”MST。 

为 了 简化 算法 的 描述 ， 我 们 假设 输入 图 G 是 无 向 
( 即 它 的 所 有 边 都 是 无 向 的 ) 的 且 简 单 的 ( 即 它 没 有 自 循 
环 和 平行 边 ) 。 因 此 ,我 们 将 G 的 边 表示 为 无 序 的 顶点 
Xt (u, v)o 

在 我 们 讨论 这 些 算法 的 细节 之 前 ， 先 得 出 一 个 关于 
形成 算法 的 基础 的 最 小 生成 树 的 重要 事实 。 

最 小 生成 树 的 重要 的 事实 — 

我 们 讨论 的 两 个 MST 算法 都 基于 贪心 算法 ,在 这 p 14-19 关于 最 小 生成 树 的 重要 事实 
种 情况 下 依赖 于 下 面 的 至 关 重 要 的 事实 CULA] 14-19 )。 的 说 明 
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命题 14-25: 定义 G 是 一 个 有 权重 的 连通 的 图 , 4M V, de V, VR ARR 3E E EO A5 
G 的 顶点 的 一 部 分 。 此 外 ， 令 e 是 那些 一 个 端点 在 所 、 另 一 个 端点 在 四 的 有 最 小 权重 的 G 
Hid, 这 就 是 一 棵 最 小 生成 树 ，e 是 它 的 一 条 边 。 

证 明 : 令 了 是 G 的 最 小 生成 树 。 如 果 了 不 包含 边 e， 则 将 e 添 加 到 了 必须 创建 一 个 循 
mw, Ak, tape fx e 有 一 个 端点 在 万 ， 另 一 个 端点 在 V Sb, HT e 的 选 
Æ, we) < wf)。 如 果 我 们 从 T U (ey PERS, 便 获 得 了 一 棵 总 权重 不 比 以 前 多 的 生成 树 。 
因为 了 是 最 小 生成 树 ， 所 以 新 的 树 同样 必须 是 最 小 生成 树 。 d 

事实 上 ， 如 果 G 的 权重 是 不 同 的 ,那么 最 小 生成 树 是 唯一 的 ， 我们 将 这 个 不 是 特别 重 
要 事实 的 证 明 留 作 练习 C-14.65。 另 外 ， 注 意 即使 图 G 包含 负 权 重 的 边 或 者 负 权 重 的 循环 ， 
命题 14-25 都 是 有 效 的 ， 不 像 我 们 提出 的 最 短路 径 算 法 。 


14.7.1 Prim-Jarnik 算法 


在 Prim-Jarník 算法 中 ， 我 们 从 一 些 “ 根 ”顶点 s 开始 的 单个 集群 生成 一 棵 最 小 生成 树 。 
其 主要 思想 和 Dijkstra 算法 类 似 。 我 们 以 一 些 顶 点 s 开始 ,定义 顶 点 C 的 初始 “ 云 ”。 然 后 ， 
在 每 次 迭代 中 ， 我 们 选择 一 个 最 小 权重 的 边 e = (u, v), 将 云 C 中 的 顶点 u 连接 到 C 之 外 的 
顶点 v。 之 后 将 顶点 v 放 到 云 C 中 ,并 且 这 个 进程 一 直 重 复 直到 生成 树 形成 。 再 一 次 ， 最 小 
生成 树 的 重要 事实 发 挥 作用 ， 因 为 一 直选 择 最 小 权重 的 边 ， 一 个 顶点 在 C 内 ， 另 一 个 在 C 
外 ， 所 以 我 们 可 以 确保 一 直 在 添加 有 效 的 边 到 MST. 

为 了 高 效 地 实现 这 个 方法 ， 我们 可 以 从 Dijkstra 算法 中 得 到 男 一 个 线索 。 我 们 为 云 C 之 
外 的 每 个 顶点 v 维持 标签 D[v]， 因 此 将 v 加 入 云 C，D[v] 存储 了 被 观察 到 的 最 小 边 的 权重 。 
(在 Dijkstra 算法 中 ， 这 个 标签 测量 了 从 开始 项 点 s S] v 的 全 部 路 径 长 度 ， 包 括 边 (u,v)。) 这 
些 标签 用 作 优 先 级 队列 中 的 键 ， 用 于 决定 哪个 顶点 在 下 一 行 中 加 入 云 。 我 们 在 代码 段 14-15 
中 给 出 了 伪 代 码 。 


代码 段 14-15 MST 问题 的 PrimJarnik 算法 
Algorithm PrimJarnik(G): 
Input: An undirected, weighted, connected graph G with n vertices and m edges 
Output: A minimum spanning tree T for G 
Pick any vertex s of G 
Dll =0 
for each vertex v Æ s do 
Di] = oo 
Initialize T = Q. 
Initialize a priority queue Q with an entry (D[v|,(v,None)) for each vertex v, 
where D[v] is the key in the priority queue, and (v, None) is the associated value. 
while Q is not empty do 
(u,e) = value returned by Q.remove_min() 
Connect vertex u to T using edge e. 
for each edge e' = (u,v) such that v isin Q do 
{check if edge (u,v) better connects v to T} 
if w(u,v) < D{v] then 
D{v] = w(u,v) 
Change the key of vertex v in Q to DIv]. 
Change the value of vertex v in Q to (we/). 
return the tree T 


PrimJarnik 算法 的 分 析 
PrimJarnik 算法 实现 中 的 问题 和 Dijkstra 算法 类 似 ， 它 们 均 依赖 于 一 个 适应 性 强 的 优先 队 
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列 Q ( 见 9.5.1 35). FRM n HA OP, JR RET n 的 取出 操作 ， 并 且 可 能 更 新 全 部 m 的 
优先 权 作为 算法 的 一 部 分 。 这 些 步骤 是 全 部 运行 时 间 中 主要 的 花费 。 有 一 个 基于 堆 的 优先 队列 ， 
每 个 操作 运行 时 间 为 O(log n)， 算 法 全 部 运行 时 间 是 O((n + m) log n)， 对 于 一 个 连通 图 来 说 是 
O(m log n)。 或 者 ， 我 们 可 以 通过 使 用 未 排序 的 列表 作为 优先 队列 来 达到 O(n?) 的 运行 时 间 。 
PrimJarnik 算法 的 图 解 
我 们 在 图 14-20 和 图 14-21 中 对 PrimJarnik 算法 进行 了 图 解说 明 。 





e) D 


14-21 PrimJarník MST 算法 的 图 解说 明 (上 接 图 14-20 ) 





图 14-21 ( 续 ) 


Python 实现 
代码 段 14-16 展示 了 PrimJarnik 算法 的 Python 实现 。MST 被 作为 一 个 边 的 无 序列 表 返 回 。 


代码 段 14-16 ”最 小 生成 树 问 题 的 PrimJarnik 算法 的 Python 实现 
def MST PrimJarnik(g): 


l 

2  """Compute a minimum spanning tree of weighted graph g. 

3 

4 Return a list of edges that comprise the MST (in arbitrary order). 

6 d) # d[v] is bound on distance to tree 
7 tree —[] # list of edges in spanning tree 

8 pq = AdaptableHeapPriorityQueue( ) # d[v] maps to value (v, e=(u,v)) 
9 pqlocator = { } # map from vertex to its pq locator 


11 # for each vertex v of the graph, add an entry to the priority queue, with 
12 # the source having distance 0 and all others having infinite distance 
13 for v in g.vertices(): 


14 if len(d) == 0: # this is the first node 
15 d[v] = 0 # make it the root 

16 else: 

17 d[v] = float('inf') # positive infinity 


18 pqlocator[v] = pq.add(d[v], (v,None)) 
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20 while not pq.is-empty( ): 


21 key,value = pq.remove. min( ) 

22 u,edge — value # unpack tuple from pq 
23 del pqlocator[u] # u is no longer in pq 
24 if edge is not None: 

25 tree.append(edge) # add edge to tree 

26 for link in g.incident edges(u): 

27 v — link.opposite(u) 

28 if v in pqlocator: # thus v not yet in tree 
29 # see if edge (u,v) better connects v to the growing tree 

30 wet = link.element( ) 

31 if wgt « d[v]: # better edge to v? 

32 d[v] = wet # update the distance 
33 pq.update(pqlocator[v], d[v], (v, link)) # update the pq entry 


34 return tree 


14.7.2 Kruskal 算法 


在 本 节 中 ， 我 们 为 重建 最 小 生成 树 而 引入 Kruskal 算法 。Prim-Jarnik 算法 通过 生成 单个 
树 直到 跨越 整个 图 来 生成 MST， 而 Kruskal 算法 维持 集群 的 森林 ， 重 复 地 合并 集群 对 直到 单 
个 集群 跨越 整个 图 。 

首先 ， 每 个 顶点 本 身 是 单元 素 集合 集群 。 算 法 按 权 重 增加 的 顺序 轮流 考虑 每 条 边 。 如 
果 一 条 边 e 连 接 了 两 个 不 同 的 集群 ,那么 e 被 添加 到 最 小 生成 树 的 边 的 集合 ， 并 且 由 e 连接 
的 两 个 集群 合并 成 一 个 单独 的 集群 。 另 一 方面 ， 如 果 e 连接 两 个 已 经 在 相同 的 集群 的 两 个 顶 
点 ,那么 e 被 丢弃 。 一 旦 算法 添加 了 足够 的 边 去 形成 一 棵 生成 树 ， 算 法 就 结束 了 ,并且 这 棵 
树 作 为 最 小 生成 树 输出 。 

我 们 在 代码 段 14-17 中 给 出 了 Kruskal 的 MST 算 法 的 伪 代 码 ， 并 且 在 图 14-22 一 
图 14-24 中 展示 了 这 个 算法 的 例子 。 


代码 段 14-17 MST 问题 的 Kruskal 算法 
Algorithm Kruskal(G): 
Input: A simple connected weighted graph G with n vertices and m edges 
Output: A minimum spanning tree T for G 
for each vertex v in G do 
Define an elementary cluster C(v) = {v}. 
Initialize a priority queue Q to contain all edges in G, using the weights as keys. 
T=0 {T will ultimately contain the edges of the MST} 
while T has fewer than n — | edges do 
(u,v) = value returned by Q.remove. min() 
Let C(u) be the cluster containing u, and let C(v) be the cluster containing v. 
if C(u) # C(v) then 
Add edge (u,v) to T. 
Merge C(u) and C(v) into one cluster. 
return tree 7 


就 像 Prim-Jarník 算法 的 情况 ，Kruskal 算法 的 正确 性 基于 命题 14-25 中 最 小 生成 树 的 重 
要 事实 。 每 次 Kruskal 算法 添加 一 条 边 Cu, v) 到 最 小 生成 树 了 中 ,我们 可 以 通过 让 Vi 成 为 
包含 v 的 集群 ， 并 让 成 包含 中 的 剩余 顶点 来 定义 顶点 六 的 集合 的 一 个 分 区 。 这 可 以 明确 
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Jig M— 4 V RU ANAC PX, JF EL UCRESERSAE, DNO SR ATTA AY UTE V. 8 中 提 
取 边 ，e 必须 是 一 个 顶点 在 内 、 另 一 个 顶点 在 Vo 的 最 小 权重 的 边 。 因 此 ，Kruskal 算法 总 是 
能 添加 有 效 的 最 小 的 生成 树 边 。 





e) f) 


图 14-22 有 数字 权重 的 图 的 Kruskal 算法 执行 的 例子 。 我 们 将 集群 作为 阴影 区 域 展示 ， 并 且 突 出 显示 
在 每 个 迷 代 中 考虑 的 边 ( 下 接 图 14-23 ) 





n) 


Fd 14-24 Kruskal 的 MST 算法 执行 的 例子 。 我 们 所 考虑 的 边 合 并 了 最 后 两 个 集群 ， 总 结 了 Kruskal 算 
法 的 执行 (上 接 图 14-23 ) 
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Kruskal 算法 的 运行 时 间 

Kruskal 算法 的 运行 时 间 主 要 花费 在 两 个 方面 。 第 一 个 是 需要 考虑 权重 的 非 递减 顺序 的 
边 ， 第 二 个 是 集群 分 区 的 管理 。 分 析 运 行 时 间 时 ， 我 们 需要 在 实现 中 给 出 更 多 的 细节 。 

按 权重 的 边 的 顺序 可 以 在 O(m log m) 的 时 间 内 实现 ， 或 者 通过 排序 算法 ， 或 者 通过 使 
用 优先 队列 0O。 如 果 那 个 队列 是 用 堆 实 现 的 ， 我 们 可 以 通过 进行 重复 的 插入 操作 在 O(m log 
m) 的 时 间 内 初始 化 O， 或 者 在 Om) 时 间 内 使 用 自 下 而 上 的 堆 来 建造 ( 见 9.3.6 节 )， 后 来 每 
次 remove min 调用 的 运行 时 间 为 O(log m)， 因 为 队列 的 大 小 是 O(m)。 我 们 注意 到 因为 对 一 
个 简单 图 来 说 m 是 O(n’), TVA O(log m) 和 O(log n) 是 一 样 的 。 因 此 ， 由 于 边 的 顺序 导致 运 
行 时 间 为 O(m log n)。 

剩 下 的 任务 是 集群 的 管理 ， 为 了 实现 Kruskal 算法 ， 我 们 必须 能 够 找到 边 e 的 顶点 和 
v 的 集群 ， 并 测试 这 些 集群 是 否 是 不 同 的 ， 如 果 不 同 ， 就 将 这 两 个 集群 合并 成 一 个 。 我 们 迄 
今 为 止 学 习 的 数据 结构 没有 能 很 好 地 适合 这 个 任务 的 。 然 而 ， 我 们 通过 形式 化 管理 不 相交 
分 区 的 问题 来 总 结 本 章 ， 并 且 引 入 了 高 效 的 联合 查找 数据 结构 。 在 Kruskal 算法 中 ， 我 们 执 
行 了 至 多 2m 个 查找 操作 和 n- 1 个 并 集 操作 。 可 以 看 到 ， 一 个 简单 的 联合 查找 结构 可 以 在 
O(m + n log n) 的 时 间 内 执行 组 合 操 作 ( 见 命题 14-26 )， 而 且 更 先进 的 结构 可 以 支持 更 快 的 
时 间 。 

对 于 一 个 连通 图 , m 三 对 - 1， 并且 对 边 排序 O(m log n) 的 时 间 的 界限 限制 了 管理 集群 
的 时 间 。 综 上 所 述 ，Kruskal 算法 的 运行 时 间 为 O(m log n)« 

Python 实现 

代码 段 14-18 展示 了 Kruskal 算法 的 Python 实现 。 随 着 Prim-Jarník 算法 的 实现 ， 最 小 
生成 树 以 边 的 列表 的 形式 返回 。 在 Kruskal 算法 中 ， 这 些 边 将 会 以 它们 的 权重 非 递 减 的 顺序 
被 报告 。 

我 们 的 实现 过 程 假设 为 了 管理 集群 分 区 而 使 用 Partition 类 。Partition 类 的 实现 见 14.7.3 节 。 


代码 段 14-18 ”最 小 生成 树 问 题 的 Kruskal 算法 的 Python 实现 


1 def MST_Kruskal(g): 
2  """Compute a minimum spanning tree of a graph using Kruskal's algorithm. 


3 

4 Return a list of edges that comprise the MST. 

5 

6 The elements of the graph's edges are assumed to be weights. 

7 

8 tree=[] # list of edges in spanning tree 

9 pq = HeapPriorityQueue( )  # entries are edges in G, with weights as key 
10 forest = Partition( ) # keeps track of forest clusters 

I! position = { } # map each node to its Partition entry 


13 for v in g.vertices(): 


14 position[v] = forest.make_group(v) 

15 

16 for e in g.edges(): 

17 pq.add(e.element(), e) # edge's element is assumed to be its weight 
18 


19 size = g.vertex count() 

20 while len(tree) != size — 1 and not pq.is empty(): 
21 # tree not spanning and unprocessed edges remain 
22 weight,edge = pq.remove_min( ) 

23 u,v = edge.endpoints( ) 
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24 a = forest.find(position[u]) 


25 b — forest.find(position[v]) 
26 if a != b: 

27 tree.append(edge) 

28 forest.union(a,b) 


30 return tree 


14.7.3 不 相交 分 区 和 联合 查找 结构 


在 本 节 中 ， 我们 考虑 用 于 管理 的 分 区 为 不 相交 集合 的 元 素 集 合 的 数据 结构 。 我 们 的 原始 
动机 是 以 Kruskal 的 最 小 生成 树 算 法 为 文 持 ， 保 持 了 不 相交 的 树 的 森林 ， 偶 尔 有 邻近 树 的 合 
并 。 更 一 般 地 说 ， 不 相交 分 区 问题 可 以 被 应 用 于 各 种 模型 的 离散 增长 。 

我 们 用 下 面 的 模型 来 形式 化 问题 。 分 区 数据 结构 管理 了 被 组 织 在 不 相交 集合 中 元 素 的 全 
E ( 即 元 素 属于 这 些 集合 中 的 一 个 且 仅 一 个 集合 )。 和 Set ADT 或 者 Python 的 set 集合 不 同 ， 
我 们 不 期 望 能 够 遍历 集合 的 内 容 ， 也 不 能 有 效 地 测试 给 定 集合 是 否 包 括 给 定 的 元 素 。 为 了 避 
人 免 这 样 的 观念 混淆 ， 我 们 称 分 区 的 集群 为 组 。 人 然而 ， 对 每 一 组 将 不 需要 一 个 明确 的 结构 ， 取 
而 代 之 的 是 允许 组 的 组 织 变 得 含蓄 。 为 了 区 别 一 个 组 和 另 一 个 组 ， 我 们 假设 在 任何 时 候 ， 每 
个 组 都 有 指定 的 条 目 ， 我 们 称 之 为 组 的 领导 。 

我 们 使 用 位 置 目标 来 定义 分 区 ADT 的 方法 ， 每 个 位 置 目 标 存 储 了 一 个 元 素 x。 分 区 
ADT 支持 以 下 方法 。 

e make group(x): 创建 一 个 包含 新 元 素 x 的 不 相交 的 组 并 且 返 回 存储 x 的 位 置 。 

e union(p, q): 合并 包含 位 置 p Al q HA. 

e find(p): 返回 包含 位 置 p 的 组 的 领导 的 位 置 。 

序列 的 实现 

总 共有 n 个 元 素 的 分 区 的 简单 实现 使 用 了 序列 的 集合 ， 对 每 个 组 都 有 一 个 序列 ， 其 中 组 
A 的 序列 存储 了 元 素 位 置 。 每 个 位 置 对 象 存储 了 一 个 变量 element， 它 引用 其 相关 联 的 元 素 x 
FHMF element) 方法 在 0(1) 的 时 间 内 执行 。 此 外 ， 每 个 位 置 存 储 了 一 个 变量 group， 引 
用 存储 p 的 序列 ， 因 为 这 个 序列 代表 包含 p 元 素 的 组 ( 见 图 14-25 ) 。 


Ae B CY-q-Q-q 


tB 








图 14-25 ”由 三 个 组 组 成 的 分 区 基于 序列 的 实现 ， 三 个 组 是 :4= (1, 4, 7}, B= (2, 3, 6,9, C= (5, 
8, 10, 11, 12} 


使 用 此 方法 ， 我 们 可 以 很 容易 在 OCT) 时 间 内 执行 make_group(x) 和 find(p) 操作 ， 人 允许 
序列 的 第 一 个 位 置 作为 “领导 ”。union (p, q) 操作 需要 将 两 个 序列 联合 成 一 个 并 且 更 新 其 
中 一 个 的 位 置 的 组 引用 。 我 们 通过 移 除 有 更 小 尺寸 的 序列 的 所 有 位 置 来 选择 实现 这 种 操作 ， 
并 且 在 有 更 大 尺 二 的 序列 中 插入 它们 ， 
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每 次 我 们 从 较 小 的 组 a 得 到 位 置 并 且 将 它 插入 更 大 的 组 b 时 ， 都 要 更 新 组 的 引用 ， 因 为 
位 置 现在 指向 pb。 因此， 操作 union(p, q) 花费 了 O(min(n,, ny))， 其 中 n,(resp.n,) 是 包含 位 置 
p(resp.q) 的 组 的 基数 。 显 然 ， 如 果 在 分 区 全 集中 及 个 元 素 ， 则 时 间 是 O(n). Ail, Ri 
接 下 来 进行 挫 销 分 析 ， 它 展示 了 这 个 实现 比 最 坏 情况 下 的 分 析 好 很 多 。 

命题 14-26 : 使 用 上 述 基 于 序列 的 分 区 实现 时 ， 对 涉及 最 多 nn 个 元 素 的 最 初 空 分 区 执行 
一 系列 关于 上 的 make group, union 和 find 操作 需要 O(k + n log n) 的 时 间 。 

WEBB: 我 们 使 用 统计 的 方法 并 且 假 设 一 美元 可 以 支付 执行 一 个 find 操作 、 一 个 make_ 
group 操作 或 者 在 一 个 union 操作 中 从 一 个 序列 到 另 一 个 序列 的 位 置 目 标的 移动 时 间 。 在 
find 操作 或 者 make group 操作 的 情况 下 ， 我 们 为 操作 本 身 花 费 1 美元 。 在 union 操作 的 情 
况 下 ， 我 们 假设 1 美元 可 以 为 比较 两 个 序列 大 小 的 固定 时 间 的 工作 支付 ， 并 且 我 们 为 从 较 小 
的 组 移动 到 较 大 的 组 的 每 一 个 位 置 花费 1 美元 。 显 然 ， 为 每 一 个 find 和 make group 操作 支 
付 的 1 美元 ， 和 为 每 一 个 union 操作 收集 的 第 一 个 美元 ,合计 是 全 部 的 美元 。 

那么 ， 为 位 置 而 支出 的 花费 是 为 了 union 操作 。 重 要 的 是 ， 每 次 我 们 从 一 个 组 到 另 一 个 
组 移动 一 个 位 置 ， 位 置 组 的 大 小 至 少 是 两 倍 。 因 此 ， 每 个 位 置 至 多 在 log n 的 时 间 内 从 一 个 
组 移动 到 另 一 个 组 ; 因此 ， 每 个 位 置 至 多 被 支付 O(log n) 次 。 因 为 我 们 假设 原始 分 区 是 空 
的 ， 在 给 定 的 操作 序列 中 有 O(n) 个 不 同 的 被 引用 的 元 素 ， 这 暗示 着 在 union 操作 期 间 ， 移 
动 元 素 的 总 时 间 是 O(n log n). 图 

基于 树 的 分 区 实现 * 

表示 分 区 的 其 他 数据 结构 使 用 了 树 的 集 A d &) 
合 去 存储 nn 个 元 素 ， 其 中 每 棵 树 和 不 同 的 组 
相关 联 ( 见 图 14-26 )。 特 别 地 ， 我 们 用 链接 (4$ O G) (6) (3)  (w) 
的 数据 结构 实现 每 棵 树 ， 其 本 身 也 是 组 位 置 
对 象 。 我 们 视 每 个 位 置 p 是 一 个 有 实例 变量 (9) D 
的 节点 element， 指 向 它 的 元 素 x， 以 及 一 个 
实例 变量 parent， 指 向 它 的 父 节点 。 按 照 惯 v) 

例 ， 如 果 p 是 树 的 根 ， 我 们 设置 p 的 父 节点 图 14-26 包含 三 组 的 分 区 基于 树 的 实现 ， 三 组 
指向 它 自己 。 AH: A={1, 4, 7), B={2, 3, 6, 9), 

使 用 这 种 分 区 数据 结构 ， 操 作 find(p) ape PA M L 
通过 从 位 置 p 向 上 走 到 树 的 根来 执行 ， 在 
最 坏 的 情况 下 它 花 费 了 O(n) 的 时 间 。 操 作 
union(p, 9) 可 以 通过 使 一 棵 树 变 成 另 一 棵 树 
的 子 树 来 实现 。 这 个 可 以 通过 定位 两 个 树 根 ， 
然后 在 OC) 的 附加 时 间 内 通过 设置 一 个 树 根 
的 父 节 点 的 引用 指向 另 一 个 树 根来 实现 。 这 
两 种 操作 的 例子 在 图 14-27 中 给 出 。 

首先 ， 这 个 实现 可 能 不 比 基 于 序列 的 数 
据 结构 好 ， 但 是 我 们 可 以 添加 以 下 两 个 简单 





的 局 发 式 方法 让 它 运行 得 更 快 。 图 14-27 一 个 分 区 基于 树 的 实现 : a) 操作 union 
PRIMO INC TUR (p, 4) + b) 操作 findp)， 其 中 指示 了 


Bp. (ep 位置 的 子 树 根 存储 元 素 的 元 素 12 的 位 置 对 象 





数目 。 在 union 操作 中 ， 让 和 较 小 的 组 的 树 根 作为 一 个 孩子 或 者 男 一 个 树 根 ， 然 后 更 新 
较 大 树 根 的 大 小 区 域 。 

e 路 径 压 缩 : 在 find 操作 中 ， 对 于 每 个 
find PRU; IE ag, ER CURE 
E eee 节点 〈 见 图 14-28 ). 

个 数据 结构 令 人 惊奇 的 特性 是 ， 当 使 
MUN REED 执行 了 一 系列 包 
含 花 费 O(k log*n) 时 间 的 n 个 元 素 的 操作 ， 
其 中 log*n 是 log-star 操 作 ， 即 tower-of-twos 
函数 的 倒数 。 直 觉 上 ，log*n 是 在 获得 比 2 更 
小 的 数字 之 前 可 以 迭代 地 得 到 一 个 数字 的 对 ”图 14-28 启发 式 的 路 径 压 缩 : a) 对 元 素 12 通过 
数 的 次 数 。 表 14-4 展示 了 一 些 样本 值 。 find 操作 的 路 径 遍 历 ; b) 重建 树 





X 14-4 一 些 log*n 的 值 和 它 的 倒数 的 临界 值 






最 小 值 n 


命题 14-27 : 在 使 用 基于 树 的 分 区 表示 的 同时 按 大 小 和 路 径 压 缩 的 情况 下 ， 对 最 多 包含 
n a dinge 区 执行 一 系列 个 make, union 和 find 操作 需要 O(k log*n) 时 间 。 
管 这 个 数据 结构 的 分 析 相 当 复 杂 ， 但 是 它 的 实现 却 非常 直 白 。 我 们 用 这 个 结构 的 完 
E n 代码 来 作 总 结 ， 见 代码 段 14-19。 


代码 段 14-19 ”使 用 基于 大 小 的 union 操作 和 路 径 压 缩 的 Partition 类 的 Python 实现 


class Partition: 


] 

2 ”Union-find structure for maintaining disjoint sets." "" 

3 

4 ## 一 一 -- 一 -一 一 -一 -一 -一 一 - nested Position class -----—-------------—-- 

5 class Position: 

6 _-slots_. = ' container', ' element', ' size', ' parent' 

7 

8 def . init... (self, container, e): 

9 """ Create a new position that is the leader of its own group." "" 

10 self. container — container # reference to Partition instance 
11 self. element — e 

12 self. size — 1 

13 self. parent — self # convention for a group leader 
l4 

I5 def element(self): 

16 """Return element stored at this position." " 

17 return self. element 

18 

19 #--- 一 -一 -一 一 一 一 一 -一 -- public Partition methods -———-----------——--- 
20 def make- group(self, e): 

21 "Makes a new group containing element e, and returns its Position." "" 
22 return self.Position(self, e) 


24 def find(self, p): 

25 """ Finds the group containing p and return the position of its leader." "" 
26 if p. parent !— p: 

27 p._parent = self.find(p. parent) # overwrite p. parent after recursion 
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return p. parent 


def union(self, p, q): 
""" Merges the groups containing elements p and q (if distinct) 
a — self.find(p) 
b = self find(q) 
if a is not b: # only merge if different groups 
if a._size > b. size: 
b. parent = a 
a..size += b..size 
else: 
a. parent = b 
b._size += a..size 


"nn 


练习 


请 访问 www.wiley.com/college/goodrich 以 获得 练习 帮助 。 


巩固 

R-14.1 
R-14.2 
R-14.3 
R-14.4 
R-14.5 
R-14.6 
R-14.7 
R-14.8 
R-14.9 


R-14.10 


R-14.11 


R-14.12 


R-14.13 


R-14.14 


R-14.15 
R-14.16 


画 出 一 个 有 12 个 顶点 、18 条 边 和 3 条 连通 分 支 的 简单 无 向 图 。 
如 果 G 是 有 12 个 顶点 和 3 条 连通 分 支 的 简单 无 向 图 ， 它 的 边 可 能 的 最 大 数目 是 多 少 ? 
画 出 在 图 14-1 中 的 无 向 图 的 邻接 矩阵 表示 。 
画 出 在 图 14-1 中 的 无 向 图 的 邻接 列表 表示 。 
画 出 一 个 有 8 个 顶点 和 16 条 边 的 简单 连通 的 有 向 图 ， 并且 每 个 顶点 的 入 度 和 出 度 为 2。 说 明 
有 一 个 单独 (不 简单 ) 的 循环 包含 图 的 所 有 边 ， 即 你 可 以 在 不 拿 开 铅笔 的 情况 下 在 边 的 各 自 方 
向 上 追踪 所 有 的 边 。( 这 样 的 循环 被 称 为 欧 拉 路 径 ,) 
假设 我 们 表示 了 一 个 有 个 顶点 和 m 条 边 的 用 边 列表 结构 表示 的 图 G。 为 什么 在 这 种 情况 下 
insert vertex 方法 运行 时 间 为 O(1)， 而 remove vertex 方法 运行 时 间 为 O(n) ? 
给 出 使 用 邻接 矩阵 表示 的 在 O(1) 时 间 内 执行 insert edge(u, v, x) 操作 的 伪 代 码 。 
就 像 在 本 章 中 描述 的 一 样 ， 用 邻接 列表 的 表示 方式 重 做 练习 R-14.7。 
边 的 列表 E 从 邻接 矩阵 的 表示 中 省 略 后 还 能 达到 在 表 14-1 中 给 出 的 时 间 界 限 吗 ?为 什么 或 者 
为 什么 不 能 ? 
边 的 列表 EE 从 邻接 列表 的 表示 中 省 略 后 还 能 达到 在 表 14-3 中 给 出 的 时 间 界 限 吗 ? 为 什么 或 
者 为 什么 不 能 ? 
在 下 列 每 个 情况 中 你 会 使 用 邻接 矩阵 结构 还 是 邻接 列表 结构 ? 证 明 你 的 选择 是 合理 的 。 
a) 有 10 000 个 顶点 和 20 000 条 边 的 图 ， 并且 尽 可 能 少 使 用 空间 很 重要 。 
b) 有 10 000 个 顶点 和 20 000 000 条 边 的 图 ， 并且 尽 可 能 少 使 用 空间 很 重要 。 
c) 你 需要 尽 可 能 快 地 回答 get edge(u, v) 查询 ， 无 论 你 使 用 了 多 少 空间 。 
解释 为 什么 在 用 邻接 和 矩阵 结构 表示 的 有 nn 个 顶点 的 简单 图 上 进行 DFS 遍历 的 运行 时 间 为 
O(n’). 
为 了 证 实 非 树 的 边 都 是 back 边 ， 重 新 画图 14-8b, DFS 树 的 边 用 实 线 并 且 面 向 下 ， 就 像 树 的 
标准 描述 一 样 ， 并 且 所 有 的 非 树 的 边 用 虚线 画 。 
如 果 一 个 简单 无 向 图 包含 每 一 对 不 同 项 点 之 间 的 边 ， 那 么 这 个 简单 无 向 图 是 完全 的 。 一 个 完 
全 图 的 深度 优先 搜索 树 形 状 如 何 ? 
从 练习 R-14.14 中 回想 一 个 完全 图 的 定义 ， 一 个 完全 图 的 广度 优先 搜索 树 形状 如 何 ? 
定义 G 是 顶点 从 数字 1 到 8 之 间 的 无 向 图 ， 并 且 每 个 顶点 的 邻接 顶点 由 下 表 给 出 : 


R-14.17 
R-14.18 


R-14.19 
R-14.20 


R-14.21 
R-14.22 


R-14.23 


R-14.24 


R-14.25 


R-14.26 
R-14.27 








顶点 邻接 顶点 
(2,3,4) 
(1,3,4) 
(1,2,4) 
(1,2,3,6) 
(6,7,8) 
(4,5,7) 
(5,6,8) 
(5,7) 
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a) Mii Go 

b) 给 出 使 用 以 顶点 1 开始 的 DFS 遍历 被 访问 的 G 的 顶点 的 序列 。 

c) 给 出 使 用 以 顶点 1 开始 的 BES 遍历 被 访问 的 顶点 的 序列 。 

画 出 图 14-2 中 的 有 向 图 的 传递 闭 包 。 

如 果 图 14-11 中 图 的 顶点 被 编号 为 (v; = JFK, v; = LAX, v; = MIA, v, - BOS, v; = ORD, 
vs= SFO, v; - DFW), f£ Floyd-Warshall 算法 中 边 会 以 什么 顺序 加 入 传递 闭 包 ? 

包含 nn 个 顶点 的 简单 有 向 路 径 组 成 的 图 的 传递 闭 包 中 有 和 多少 边 ? 

已 知 一 个 有 nn 个 顶点 的 完全 二 叉 树 7， 以 给 定 的 位 置 为 根 ， 考 虑 一 个 以 了 中 的 节点 作为 它 的 


顶点 的 有 向 图 G 。 对 中 的 每 一 对 父子 节点 ,创建 一 条 在 G 中 的 从 父亲 到 孩子 的 有 向 路 径 。 
展示 有 O(n log n) 条 边 的 G 的 传递 闭 包 。 

为 在 图 14-3d 中 用 实 边 画 的 有 向 图 计算 一 个 拓扑 排序 。 

Bob 喜欢 外 语 并 且 想 在 接 下 来 的 几 年 计划 他 的 课程 安排 。 他 对 下 面 九 种 语言 课程 感 兴趣 : 
LA15，LA16，LA22，LA31，LA32，LA126，LA127，LA141，LA169。 课 程 的 先决 条 件 是 : 
e LA15: (none) 

e LA16: LA15 

e LA22: (none) 

e LA31: LA15 

e LA32: LA16，LA31 

e LA126: LA22，LA32 

e LA127: LA16 

e LA141: LA22, LA16 

e LA169: LA32 

在 尊重 先决 条 件 的 情况 下 ， 按 照 什么 顺序 Bob 可 以 修 习 这 些 课 程 ? 

画 一 个 有 8 个 顶点 和 16 条 边 的 简单 的 连通 的 加 权 图 ， 每 条 边 的 权重 都 唯一 。 确 定 一 个 顶点 
作为 “开始 ”顶点 并 且说 明 Dijkstra 算法 在 这 个 图 上 的 运行 时 间 。 

若 图 是 有 向 的 ， 并 且 我 们 想 计 算 从 一 个 源 顶 点 到 所 有 其 他 顶点 的 最 短 有 向 路 径 ， 展 示 如 何 为 
Dijkstra 算法 修改 伪 代 码 。 

画 出 一 个 有 8 个 顶点 和 16 条 边 的 简单 的 连通 的 无 向 加 权 图 ， 且 每 条 边 的 权重 都 唯一 。 说 明 
Prim-Jarník 算法 为 这 个 图 计算 最 小 生成 树 的 执行 过 程 。 

问题 同上 ， 重 复 表 述 Kruskal 算法 。 

在 一 个 湖 中 有 8 个 小 岛 ， 有 一 个 国家 想 建造 7 座 桥 去 连通 它们 ， 使 得 每 个 岛 通过 一 座 桥 或 者 
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R-14.29 
R-14.30 
R-14.31 
R-14.32 
R-14.33 
R-14.34 
R-14.35 
R-14.36 


创新 


C-14.37 


C-14.38 


C-14.39 


C-14.40 


C-14.41 


C-14.42 


C-14.43 
C-14.44 


更 多 的 桥 能 够 到 达 任 何其 他 的 岛 。 建 造 一 座 桥 的 花费 和 它 的 长 度 成 正比 。 各 个 岛 之 间 的 距离 
在 下 面 的 表 中 给 出 。 


1 
1 
2 
3 
4 
5 
6 
T 
8 





如 何 建 桥 可 以 得 到 最 小 的 总 建造 花费 ? 

描述 在 说 明了 DFS 遍历 的 图 14-9 中 的 图 形 化 约定 的 含义 。 线 粗细 的 含义 是 什么 ? 箭头 的 含 
义 是 什么 ? 虚线 的 含义 是 什么 ? 

对 说 明 有 向 DFS 遍历 的 图 14-8 重复 练习 R-14.28。 

对 说 明 BFS 遍历 的 图 14-10 重复 练习 R-14.28. 

对 说 明 Floyd-Warshall 算法 的 图 14-11 重复 练习 R-14.28。 

对 说 明 拓扑 排序 算法 的 图 14-13 重复 练习 R-14.28。 

对 说 明 Dijkstra 算法 的 图 14-15 和 图 14-16 重复 练习 R-14.28。 

对 说 明 Prim-Jarnik 算法 的 图 14-20 和 图 14-21 重复 练习 R-14.28。 

对 说 明 Kruskal 算法 的 图 14-22 一 图 14-2 重复 练习 R-14.28。 

Goerge 声明 他 在 从 位 置 p 开始 的 分 区 结构 中 有 一 个 路 径 压 缩 的 最 快 方式 。 就 把 p 放 进 列表 工 中 ， 
然后 开始 接 下 来 的 父 类 指针 。 每 次 他 遇见 一 个 新 的 位 置 9， 就 把 gq 加 到 工 中 并 且 更 新 每 个 工 中 的 
节点 的 父 类 指针 以 指向 q 的 父 类 。 展 示 Goerge 在 长 度 为 n 的 路 径 上 运行 时 间 为 QUP) 的 算法 。 


给 出 14.2.5 节 的 邻接 图 实现 的 remove_vertex(v) 方法 的 Python 实现 ,确保 你 的 实现 工作 对 有 
向 图 和 无 向 图 都 能 进行 。 你 的 方法 的 运行 时 间 应 该 为 O(deg(v))。 

给 出 14.2.5 节 的 邻接 图 实现 的 remove_edge(e) 方法 的 Python 实现 ， 确 保 你 的 实现 工作 对 有 
向 图 和 无 向 图 都 能 进行 。 你 的 方法 的 运行 时 间 应 该 为 0(1)。 

假设 我 们 希望 用 边 列表 结构 表示 一 个 及 n 个 项 点 的 图 G， 假 设 我 们 用 集合 {0, 1，…, 一 1} 
中 的 数字 标识 顶点 。 描 述 如 何 实现 集合 已 ， 使 得 get edge(u, v) 方法 支持 O(log n) 的 性 能 。 在 
这 种 情况 下 你 怎么 实现 这 个 方法 ? 

令 了 是 以 由 一 个 连通 的 无 向 图 G 的 深度 优先 搜索 产生 的 开始 顶点 为 根 的 生成 树 。 讨 论 为 什么 
G 中 不 在 了 中 的 每 一 条 边 可 从 了 中 的 一 个 顶点 走向 它 的 一 个 祖先 ， 即 它 是 一 条 back 边 。 
假设 一 旦 v 被 发 现时 DFS 进程 就 结束 了 ， 那 么 在 代码 段 14-6 中 报告 从 x 到 v 的 路 径 的 解决 
方案 应 该 在 实际 中 变 得 更 高 效 。 修 改 代 码 以 实现 这 个 优化 。 

定义 G 是 一 个 有 个 顶点 和 六 条 边 的 无 向 图 G。 为 每 次 迭代 正确 地 遍历 每 个 G 的 边 描述 一 
个 时 间 为 O(n + m) 的 算法 。 

实现 一 个 返回 有 向 图 G 中 的 一 个 循环 的 算法 (如 果 有 这 样 的 循环 存在 )。 

为 无 向 图 g 写 一 个 函数 components(g)， 该 函数 能 返回 一 个 字典 ， 将 每 个 顶点 映射 到 一 个 整 
数 ， 该 整数 作为 其 连通 分 支 的 标识 符 。 即 两 个 顶点 应 该 被 映射 到 相同 的 标识 符 ， 当 且 仅 当 它 
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们 在 相同 的 连通 分 支 中 。 

如 果 从 开始 到 结束 有 一 条 路 径 ， 则 称 迷 富 是 正确 的 ， 整 个 迷 富 是 从 开始 可 达 的 ， 并 且 在 迷 
宫 周 围 的 任何 一 部 分 没有 循环 。 已 知 一 个 nxn 网 格 画 的 迷宫 ， 如 何 判 定 它 是 否 是 正确 建造 
的 ?该 算法 的 运行 时 间 是 多 少 ? 

计算 机 网 络 应 该 避免 单个 点 的 失败 ， 即 如 果 网 络 节点 失败 的 话 可 以 断 开 网 络 。 我 们 称 一 个 无 
向 的 连通 的 图 G 是 双 连 通 的 ， 如 果 它 不 包含 删除 这 个 顶点 会 将 G 分 成 两 个 或 者 更 多 的 连通 
分 支 的 顶点 。 给 出 一 个 为 添加 至 多 n 条 边 到 有 n 二 3 个 顶点 和 m > n- 1 条 边 的 连通 图 G 中 
的 算法 ， 以 保证 G 是 双 连 通 的 。 你 的 算法 的 运行 时 间 应 该 是 O(n + m). 

解释 对 于 一 个 用 无 向 图 建造 的 BFS 树 来 说 ， 为 什么 所 有 的 非 树 边 是 cross 边 。 

解释 对 于 一 个 有 向 图 建造 的 BFS 树 来 说 ， 为 什么 没有 非 树 的 forward 边 。 

说 明 如 果 了 是 一 个 由 连通 图 G 建造 的 BFS MH, 那么 ， 对 于 每 个 在 i 阶层 的 顶点 v, CEs Aly 
之 间 的 路 径 有 i 条 边 ， 并 且 G 的 在 s 和 v 之 间 的 其 他 路 径 至 少 有 i 条 边 。 

证 明 命题 14-16。 

提供 一 个 使 用 FIFO 队列 而 不 是 分 级 规划 的 BFS 算法 的 实现 ， 用 于 管理 已 经 被 发 现 的 顶点 ， 
直到 考虑 它们 的 邻居 的 时 候 。 

如 果 一 个 图 G 的 顶点 可 以 被 分 为 两 个 集合 蕊 和 了， 使 得 在 G 中 的 每 条 边 在 XX 中 有 一 个 结束 
顶点 并 且 另 一 个 在 了 中 ， 则 该 图 是 双向 的 。 为 判定 无 向 图 G 是 否 是 双向 的 设计 和 分 析 一 个 高 
效 的 算法 (在 提前 不 知道 集合 了 和 了 的 情况 下 )。 

一 个 有 nn 个 顶点 和 m 条 边 的 有 向 图 如 的 欧 拉 路 径 是 一 个 根据 它 的 方向 每 次 正确 遍历 如 的 每 
条 边 的 循环 。 如 果 售 是 连通 的 并 且 仑 中 的 每 个 顶点 的 人 度 等 于 出 度 ， 则 这 样 的 循环 总 是 存在 


的 。 为 找到 这 样 一 个 有 向 图 他 的 欧 拉 路 径 描述 一 个 时 间 为 O(n + m) 的 算法 。 
名 为 RT&T 的 公司 有 n 个 被 高 速 通信 线路 连接 的 开关 站 的 网 络 。 每 个 顾客 的 手机 直接 连接 到 


在 其 领域 内 的 一 个 站 。RT&T 的 工程 师 开 发 了 一 个 电视 电话 原型 系统 ,该 系统 允许 两 个 客户 
在 电话 通信 期 间 看 见 彼此 。 为 了 具有 可 接受 的 图 像 质 量 ， 被 用 来 在 两 个 客户 之 间 传 送 视频 信 
号 的 链接 的 数量 不 能 超过 4 个。 假设 RT&T 的 网 络 是 用 图 来 表示 的 。 设 计 一 个 算法 ， 在 每 个 
站 ， 计 算 使 用 不 超过 4 个 链接 可 以 实现 的 站 的 集合 。 

长 距离 电话 的 时 间 延 迟 可 以 通过 用 呼叫 者 和 被 呼叫 者 之 间 的 电话 网 络 通信 线路 的 数目 乘 以 一 
个 很 小 固定 常量 来 决定 。 假 设 名 为 RT&T 的 公司 的 电话 网 络 是 一 棵 树 。RT&T 的 工程 师 想 计 
算 在 长 途 电话 中 可 能 的 最 大 时 间 延 迟 。 已 知 一 棵 树 7, 7 的 直径 是 7 的 两 个 节点 的 最 长 路 径 
的 长 度 。 给 出 一 个 计算 7 的 直径 的 高 效 算法 。 

亚 塔 马 林 多 大 学 和 许多 世界 各 地 的 其 他 学 校 一 样 在 开展 多 媒体 工程 。 计 算 机 网 络 的 建造 是 用 
来 连接 那些 使 用 通信 线路 的 学 校 ， 这 形成 了 一 棵 树 。 学 校 决定 在 其 中 一 个 学 校 安装 一 个 文件 
服务 器 以 在 所 有 学 校 之 间 分 享 数据 。 因 为 一 个 线路 的 传输 时 间 由 链 路 的 设置 和 同步 控制 ， 数 
据 传输 的 花费 和 使 用 链 路 的 数目 成 正比 。 因 此 ， 需 要 为 文件 服务 器 选择 一 个 “中 心 ”位 置 。 
已 知 一 棵 树 了 和 了 的 一 个 节点 v，v 的 离心 率 是 从 到 了 的 任何 其 他 节点 的 最 长 路 径 的 长 度 。 
有 最 小 离心 率 的 了 的 节点 被 称 为 了 的 中 心 。 

a) 设计 一 个 计算 的 中 心 的 高 效 算法 ， 其中, 已 知 一 棵 个 节点 的 树 7。 

b) 这 个 中 心 是 唯一 的 吗 ? 如 果 不 是 ， 一 棵 树 可 以 有 多 少 个 不 同 的 中 心 ? 

FAM 0 Bln — 1 的 数字 对 他 的 顶点 进行 编号 ， 若 有 一 些 方式 使 得 他 包含 边 CL j) 当 且 仅 当 对 
所 有 在 [0, n- 1] 中 的 i 有 i<i， 则 称 一 个 及 个 顶点 的 有 向 非 循环 图 避 是 压缩 的 。 给 出 一 个 
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探索 他 是 否 是 压缩 的 时 间 为 O) 的 算法 。 

定义 如 是 一 个 有 nn 个 顶点 的 加 权 有 向 图 。 为 计算 从 每 个 顶点 到 每 个 其 他 顶点 的 最 短路 径 的 长 
度 设计 一 个 在 O) 时 间 内 的 Floyd-Warshall 算法 的 变形 。 

为 寻找 从 一 个 非 循环 加 权 有 向 图 如 的 一 个 顶点 s 到 一 个 顶点 上 的 最 长 有 向 路 径 设 计 一 个 高 效 的 
算法 。 详 细 说 明 使 用 的 表示 方式 和 使 用 的 辅助 数据 结构 。 同 样 ， 分 析 该 算法 的 时 间 复 杂 度 。 
无 向 图 G= (V, E) 的 独立 集合 是 VV 的 子 集 1， 使 得 1 中 的 两 个 顶点 都 不 是 相 邻 的 。 即 如 果 u 和 
v 在 T 中 ,那么 (Cu, v) 不 在 E 中 。 极 大 无 关 组 M 是 一 个 独立 的 集合 ， 使 得 如 果 我 们 添加 任何 
额外 的 顶点 到 MM 中， 那么 它 将 不 再 独立 。 每 个 图 都 有 一 个 极 大 无 关 组 。( 你 知道 为 什么 吗 ? 
这 个 问题 不 是 练习 的 一 部 分 ， 但 是 一 个 值得 思考 的 问题 。) 给 出 一 个 计算 图 G 的 极 大 无 关 组 
的 高 效 算 法 。 这 个 方法 的 运行 时 间 是 多 少 ? 

给 出 当 一 个 及 个 顶点 的 简单 图 G 用 堆 实现 的 时 候 使 得 Dijkstra 算法 的 运行 时 间 为 Q0 log n) 
的 例子 。 

给 出 这 样 的 例子 : 具有 负 权 重 的 加 权 有 向 图 仓 ， 但 是 没有 负 权 重 循环 ， 使 得 Dijkstra 算法 错 
误 地 计算 从 一 些 开始 顶点 s 开始 的 最 短路 径 。 

为 在 已 知 的 连通 图 中 从 start 顶点 到 goal 顶点 找到 一 条 最 短路 径 。 考 虑 下 面 的 贪心 策略 : 

1 ) 初始 化 到 start 的 路 径 。 

2 ) 将 visited 集合 初始 化 为 (start) 。 

3) 如 果 start = goal， 返 回路 径 并 且 退 出 ， 否 则 继续 。 

4) 找到 最 小 权重 的 边 (start, v)， 使 得 v 和 start 相 邻 但 是 v 没 有 被 访问 。 

5) 添加 v 到 路 径 中 。 

6) Wn v 到 被 访问 中 。 

7) 设置 start 和 v 相等 并 且 进 行 第 3 步 。 

这 个 贪心 策略 总 是 能 找到 从 start 到 goal 的 最 短路 径 吗 ? 或 者 直观 地 解释 为 什么 它 会 工作 ， 
或 者 举 出 一 个 反例 。 

在 代码 段 14-13 中 的 shortest_path_lengths 的 实现 依赖 于 使 用 “无 穷 大 ”作为 一 个 数值 ， 以 
表示 从 源 (未 知 ) 可 达 的 顶点 的 距离 界限 。 在 没有 这 样 的 标记 的 情况 下 重新 实现 ， 此 时 顶点 
(除了 源 顶点 ) 不 会 添加 到 优先 队列 中 ， 直 到 它们 显然 是 可 到 达 的 。 

说 明 如 果 在 连通 的 加 权 图 G 中 的 所 有 权重 都 是 不 同 的， 那么 G 会 有 一 棵 正确 的 最 小 生成 树 。 
一 种 旧 的 MST 方法 称 为 Bartivka 算法 ,在 有 个 顶点 和 m 条 不 同 权 重 的 边 的 图 G 上 按照 下 


面 这 样 工作 : 


Let T be a subgraph of G initially containing just the vertices in V. 
while 7 has fewer than n — 1 edges do 
for each connected component C; of T do 
Find the lowest-weight edge (u,v) in E with u in C; and v not in 


Ch 
Add (u,v) to T (unless it is already in 7). 
return 7 


证 明 这 个 算法 是 正确 的 并 且 它 的 运行 时 间 为 O(m log n). 

定义 G 是 一 个 有 nn 个 顶点 和 m 条 边 的 图 ，G 的 所 有 的 边 的 权重 是 在 [1, n] 范围 内 的 数字 。 为 
寻找 G 的 最 小 生成 树 给 出 一 个 运行 时 间 为 O(m log*n) 的 算法 。 

考虑 一 个 电话 网 络 的 图 解 ， 这 个 电话 网 络 的 项 点 代表 转换 中 心 ， 并 且 它 的 边 代 表 连 接 一 对 中 心 
的 通信 线路 。 边 用 它们 的 带宽 标 出 ， 并 且 一 条 路 径 的 带宽 和 路 径 的 边 之 间 的 最 低 带 宽 相 等 。 给 
出 一 个 算法 , 已 知 一 个 网 络 和 两 个 转换 中 心 Alb, TH aF 之 间 的 路 径 的 最 大 带宽 。 
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NASA 想 使 用 传播 渠道 链接 遍布 城市 的 2 个 站 。 每 一 对 站 有 不 同 的 可 用 带宽 ， 称 为 priori。 
NASA 想 以 所 有 的 站 被 渠道 链接 并 且 总 带宽 (定义 为 渠道 的 单个 带宽 的 总 和 ) 是 最 大 的 方式 
去 选择 n -1 个 渠道 。 对 这 个 问题 给 出 一 个 高 效 的 算法 并 且 判 定 它 在 最 坏 情 况 下 的 时 间 复 杂 
度 。 考 虑 加 权 图 G = (V, E)， 其 中 VV 是 站 的 集合 并 且 E 是 站 之 间 的 渠道 的 集合 。 定 义 E 的 每 
条 边 e 的 权重 w(e) 为 通信 渠道 的 带宽 。 
Asymptopia 的 城 保 里 有 一 个 迷宫 ， 沿 着 迷宫 的 每 个 走廊 有 一 包 人 金币。 每 包 的 金币 数量 都 
是 不 同 的 。 贵 族 骑 士 Paul 得 到 了 一 个 穿越 迷宫 并 捡拾 金币 包 的 机 会 。 他 只 能 从 被 标记 为 
“ENTER” 的 门 进 入 迷 富 并 且 从 标记 为 “EXIT” 的 门 出 去 。 然 而 在 迷宫 中 他 可 能 不 会 重 走 
路 径 。 迷 宫 的 每 个 走廊 有 一 个 在 墙 上 喷绘 的 箭头 。 在 迷宫 中 没有 办 法 去 遍历 “循环 " 。 已 知 
迷宫 的 地 图 , 包括 每 条 走廊 金币 的 数量 ， 描 述 一 个 算法 去 帮助 Paul 捡 到 最 多 的 金币 。 
假设 你 已 经 得 到 一 个 时 间 表 ， 它 包括 : 
en 个 机 场 的 集合 4， 并且 对 A 中 的 每 个 机 场 a， 有 最 小 的 连接 时 间 c(a)。 
em 个 航班 的 集合 琅 ， 对 每 个 F 中 的 航班 ， 有 下 面 的 说 明 : 

° 4 的 起 始 机 场 w C 

° 4 的 目的 机 场 a» Cf) 

° 出 发 时 间 A CO 

° 到 达 时 间 5 CO 
为 航班 的 行程 安排 问题 描述 一 个 高 效 的 算法 。 在 这 个 问题 中 ,我们 已 知 机 场 a 和 4 以 及 时 间 
1， 并 且 和 希望 计算 航班 的 序列 ， 该 航班 允许 在 时 间 :或 者 在 时 间 1 之 后 离开 a 时， 能 在 最 早 的 
可 能 时 间 到 达 5。 在 中 间 的 机 场 的 最 小 连通 时 间 必 须 被 考虑 在 内 。 该 算法 作为 一 个 参数 为 了 
或 者 m 的 函数 的 运行 时 间 是 多 少 ? 
假设 我 们 已 知 一 个 有 个 顶点 的 有 向 图 G， 并 且 令 M 是 与 G 相 一 致 的 n x n 的 邻接 矩阵。 
a) 定义 M 和 它 本 身 的 乘积 (M?2 )， 对 于 1 三 记过 0， 有: 

M(i,))= M(i, 1) © M(1,j) ® = ® M(i, n) O M(n, j) 
HPO FEAR or 运算 符 ， 〇 是 布尔 型 and eH. CAME, XT UH, M()-1 
暗示 了 什么 ”如 果 是 M? (i, j)=0 WE? 
b) 假设 M* 是 M^ 和 它 本 身 的 乘积 。M 中 的 项 意味 着 什么 ?7 M) =( M*) M 呢 ?一 般 来 说 ， 
包含 在 矩阵 M 中 的 信息 是 什么 ? 
c) 现在 假设 G 是 有 权重 的 并 且 假 设 有 下 面 的 说 明 : 
i)isisn, Mi,i)=6, 
2)1xi,j € n, M(i,j) ? weight(, j), WR (i,j) EP. 
3)1<ij <n, MG,j)=~ i, WẸ (ij) TEE m. 
RE, HEM M?, 对 于 1 <ij<n, A: 
M*(i, j) = min{M(i,1) + MQ, j); =, M(i, n) + Mn, j)! 

如 果 Mi, j) =k， 我 们 从 顶点 i 和 j 的 关系 中 能 总 结 出 什么 ? 
Karen 有 新 的 方式 在 从 位 置 p 开始 的 基于 树 的 并 集 / 查找 分 区 数据 结构 上 进行 路 径 压缩 。 她 
把 从 p 到 根 的 路 径 上 的 所 有 位 置 放 进 集合 S$。 然 后 扫描 SS， 并且 将 5 中 的 每 一 个 位 置 的 父 指 
针 指 向 它 的 父 类 的 父 节 点 (记得 根 指向 它 自己 的 父 节 点 )。 如 果 这 个 过 程 改变 了 任何 位 置 父 
节点 的 值 ， 那 么 就 重复 这 个 过 程 ， 并 且 继 续 重 复 这 个 过 程 直 到 扫描 完 S 且 没 有 改变 任何 位 置 
的 父 节点 。 说 明 Karen 的 算法 是 正确 的 并 且 分 析 长 度 为 h 的 路 径 的 运行 时 间 。 
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项 目 

P-14.74 使 用 邻接 矩阵 去 实现 支持 简化 的 不 包含 update 方法 的 Graph ADT。 该 类 应 该 包括 有 两 个 集合 
的 构造 函数 方法 ， 两 个 集合 分 别 为 顶点 元 素 的 集合 上 和 顶点 元 素 对 的 集合 互 ， 并 且 产 生 了 用 
这 两 个 集合 代表 的 图 Go 

P-14.75 ”使 用 边 列表 结构 实现 在 P-14.74 中 描述 的 简化 的 Graph ADT. 

P-14.76 ”使 用 邻接 列表 结构 实现 在 P-14.74 中 描述 的 简化 的 Graph ADT. 

P-14.77 继承 P-14.74 的 类 以 支持 Graph ADT 的 更 新 方法 。 

P-14.78 设计 重复 的 DFS 遍历 的 实验 ， 与 用 于 计算 有 向 图 的 传递 闭 包 的 Floyd-Warshal 算法 比较 。 

P-14.79 ”对 在 本 章 讨论 的 两 个 最 小 生成 树 算 法 (Kruskal 和 Prim-Jarník) 执行 实验 性 的 比较 。 设 计 一 个 
实验 的 大 量 的 集合 去 测试 这 些 使 用 随机 生成 的 图 表 的 算法 的 运行 时 间 。 

P-14.80 建造 迷宫 的 一 种 方式 是 以 zx n 网 格 开始 的 ， 其 中 每 个 网 格 单元 以 四 个 单位 长 度 的 墙壁 为 界 
限 。 然 后 移 除 两 个 界限 单位 长 度 的 墙 ， 表示 开始 和 结束 。 对 每 一 个 剩余 的 单位 长 度 的 墙 来 
说 ， 若 不 在 边界 上 ， 我 们 就 指定 一 个 随机 数 并 且 创建 一 个 名 为 dual 的 图 G， 因 此 每 个 网 格 单 
元 都 是 G 的 一 个 顶点 并 且 有 一 条 连接 两 个 单元 顶点 的 边 当 且 仅 当 单元 分 享 共同 的 墙 。 每 条 边 
的 权重 是 ORA oe NNUS 一 棵 最 小 生成 树 了 和 移 除了 中 所 有 与 边 对 应 的 
墙 来 建造 这 个 迷宫 。 使 用 这 个 算法 写 一 个 程序 ， 生 成 迷宫 然后 解决 它们 。 最 低 要 求 是 ， 你 的 
程序 应 该 画 出 迷宫 ， 并 且 在 理想 的 情况 下 ， 它 同样 应 该 设想 解决 方案 。 

P-14.81 写 一 个 程序 ， 基 于 最 短路 径路 由 为 计算 机 网 络 中 的 节点 建立 一 个 路 由 表 ， 其 中 路 径 距 离 用 跳 
跃 总 数 来 测量 ， 即 路 径 中 边 的 数量 。 这 个 问题 的 输入 对 所 有 在 网 络 中 的 节点 来 说 是 连接 信 
息 ， 就 像 下 面 的 例子 一 样 : 

241.12.31.14: 241.12.31.15 241.12.31.18 241.12.31.19 

这 暗示 三 个 连接 到 241.12.31.14 的 网 络 节点 ， 即 三 个 节点 是 一 跳 。 在 地 址 4 的 节点 的 路 由 表 
是 (B, C) 对 的 集合 ， 这 暗示 着 ， 按 从 4 到 B 的 路 线 发 送信 息 ， 下 一 个 被 送 到 (按照 从 4 到 
B 的 最 短路 径 ) 的 节点 是 C。 你 的 程序 应 该 对 网 络 中 的 每 个 节点 输出 路 由 表 ， 已 知 节 点 连通 
性 列表 的 输入 列表 ， 每 个 输入 列表 像 上 述 语法 一 样 输入 ， 一 行 一 个 。 


扩展 阅读 
深度 优先 搜索 方法 是 计算 机 科学 发 展 中 的 一 部 分 ， 但 是 Hopcroft 和 Tarjan ?9 展示 了 该 算法 对 解 
决 一 些 不 同 图 的 问题 是 多 么 有 用 。Knuth4 讨论 了 拓扑 排序 问题 。 我 们 描述 的 简单 线性 时 间 算 法 是 为 
了 判定 一 个 有 向 图 是 否 是 强 连通 的 ， 这 归功 于 Kosaraju. Floyd-Warshall 算法 被 Floyd? 呈现 在 书 中 并 
是 基于 WarshallU?? 的 原理 。 
第 一 个 著名 的 最 小 生成 树 算法 归功 于 Barüvka?! Jf-T- 1926 年 发 布 。Prim-Jarnik 算法 首先 在 1930 年 
由 Jarnik” 在 捷克 发 布 ， 并 且 英 文 版 在 1957 年 由 Prim? 发 布 。Kruskal 在 195687 年 发 布 了 他 的 最 小 生 
成 树 算法 。 对 最 小 生成 树 问题 的 更 多 历史 感 兴趣 的 读者 可 以 看 Graham 和 Hell 的 书 1。 目前 渐 近 的 最 快 
最 小 生成 树 算法 是 Karger, Klein 和 Tarjan®” 在 预期 O(m) 时 间 内 运行 的 随机 算法 。Dijkstra9 在 1959 年 
发 布 了 他 的 单 源 最 短路 径 算法 。Prim-Jarnik 算法 的 运行 时 间 ， 还 有 Dijkstra 的 运行 时 间 ， 事 实 上 可 以 通 
过 用 更 精细 的 数据 结构 “ 斐 波 那 契 堆 "fa 或 者 “ 松 驰 的 堆 "5， 通 过 实现 队列 O 以 改良 到 O(n log n + m). 
为 了 学 习 不 同 的 画图 算法 ， 请 看 Tamassia 和 Liotta 的 书 外， 以 及 Di Battista, Eades, Tamassia 
和 Tollis 的 书 史 。 对 图 的 算法 的 深层 学 习 感 兴趣 的 读者 可 以 看 Ahuja、Magnanti 和 Orlin AY, 
Cormen, Leiserson , Rivest 和 Stein 的 书 "9, Mehlhorn 和 Tarjan 的 书 779, WA van Leeuwen 的 书 ©"), 
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迄今 为 止 ， 我 们 对 数据 结构 的 研究 主要 关注 计算 效率 一 一 通过 CPU 执行 基本 操作 的 数 
量 来 衡量 。 实 际 上 ， 计 算 机 系统 的 性 能 也 会 受 计算 机 存储 系统 的 管理 所 影响 。 在 对 数据 结构 
的 分 析 中 ， 我 们 根据 数据 结构 所 使 用 的 内 存 总 量 给 出 渐 近 边界 。 在 本 章 中 ， 我 们 考虑 更 多 的 
是 关于 计算 机 存储 系统 的 使 用 。 

首先 讨论 计算 机 程序 在 执行 期 间 内 存 的 分 配 和 释放 ， 以 及 这 对 程序 性 能 的 影响 。 其 次 
讨论 目前 计算 机 系统 中 多 级 存储 结构 的 复杂 性 。 虽 然 我 们 经 常 将 计算 机 的 存储 器 抽象 为 自由 
互 换 位 置 的 池 ， 实际 上 ， 运 行程 序 所 使 用 的 数据 是 在 物理 存储 器 的 组 合 中 进行 存储 和 传输 的 
(如 CPU 的 寄存 器 、 高 速 缓存 、 内 部 存储 器 和 外 部 存储 器 )。 我 们 考虑 使 用 经 典 的 管理 内 存 
的 数据 结构 算法 ， 以 及 存储 器 层次 结构 是 如 何 影 响 数据 结构 和 算法 的 选择 的 ， 如 查找 和 排序 
等 经 典 问 题 。 


15.1 内 存 管理 


为 了 在 实际 计算 机 中 实现 任何 数据 结构 ， 我 们 需要 使 用 计算 机 的 内 存 。 计 算 机 存储 器 
被 组 织 成 字 序列 ， 其 中 每 一 个 序列 通常 包含 4、8 或 16 个 字 节 (取决 于 计算 机 )。 这 些 内 存 
字 编 号 从 0 到 N- 1， 其 中 NN 是 计算 机 可 获得 的 内 存 字 节 的 数量 。 与 每 个 内 存 字 节 相 关联 的 
数字 称 为 内 存 地 址 。 因 此 ， 计 算 机 的 存储 器 基本 上 可 被 视 为 一 个 巨大 的 内 存 字 节 的 矩阵 。 如 
5.2 市 的 图 5-1 所 示 ， 我 们 所 描绘 的 计算 机 的 部 分 内 存 如 下 图 所 示 。 
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为 了 运行 程序 和 存储 信息 ， 必 须 对 计算 机 的 内 存 进 行 管理 ， 以 便 确 定 什么 样 的 数据 被 存 
储 在 哪个 存储 器 单元 。 在 这 一 节 中 ， 我们 将 讨论 内 存 管理 的 基本 知识 ， 特 别 描述 存储 新 对 象 
时 怎样 分 配 内 存 ， 当 对 象 不 再 需要 时 怎样 将 分 配 的 内 存 进行 释放 和 回收 ， 以 及 Python 解释 
需 怎 样 使 用 内 存 来 完成 任务 。 


15.1.1 内 存 分 配 


在 Python 中 ， 所 有 对 象 都 存储 在 内 存 池 中 ,该 内 存 池 称 为 内 存 堆 或 Python J£ (不 要 与 
第 9 章 中 提出 的 “ 堆 ” 数 据 结 构 相 混淆 )。 当 运行 如 下 的 命令 时 ， 
w — Widget() 
假定 Widget 是 一 个 类 名 ， 该 类 的 一 个 新 实例 被 创建 并 存储 在 内 存 堆 中 的 某 个 地 方 。 当 执行 
Python 程序 时 ，Python 解释 器 负责 协调 操作 系统 空间 的 使 用 和 管理 内 存 堆 的 使 用 。 
内 存 堆 存储 空间 被 分 成 连续 的 块 ， 类 似 于 矩阵， 块 的 大 小 可 以 是 变量 或 固定 值 。 系 统 必 
须 实 现 该 功能 ， 才 可 以 迅速 为 新 对 象 分 配 内 存 。 一 种 常用 的 方法 是 将 连续 空间 的 可 用 内 存 连 
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接 到 链表 上 ， 称 为 空闲 表 。 只 要 它们 的 内 存 未 被 使 用 ， 这 些 空间 就 会 被 连接 到 链表 中 。 随 着 
内 存 的 分 配 和 释放 ， 空 闲 表 中 的 空间 集 就 会 发 生变 化 ， 那 些 未 使 用 的 内 存 空间 被 已 用 的 内 存 
块 分 离 成 不 相连 的 空间 。 未 使 用 的 内 存 分 离 成 单独 的 空间 ， 也 被 称 为 碎片 。 现 在 的 问题 是 找 
到 大 的 连续 内 存 块 将 会 变 得 越 来 越 难 ， 即 使 使 用 等 量 的 未 被 使 用 的 内 存 (但 碎片 化 )。 因 此 ， 
我 们 希望 尽 可 能 地 使 碎片 最 小 化 。 

可 能 产生 两 种 类 型 的 碎片 。 当 所 分 配 的 内 存 块 的 一 部 分 未 使 用 时 ， 可 能 产生 内 部 碎片 ， 
例如 ， 程 序 可 以 请 求 大 小 1000 的 矩阵， 但 仅 使 用 该 矩 阵 的 前 100 个 内 存单 元 。 没 有 太 多 的 
运行 时 环境 可 以 做 到 降低 内 部 碎片 。 此 外 ， 当 几 个 已 分 配 内 存 的 连续 块 之 间 有 未 使 用 的 内 存 
空间 时 ， 可 能 会 产生 外 部 碎片 。 由 于 运行 时 环境 可 以 控制 当 请 求 发 生 时 在 哪里 分 配 内 存 ， 故 
运行 时 环境 应 该 以 尽量 减少 外 部 碎片 的 方式 来 分 配 内 存 。 

为 了 最 小 化 外 部 碎片 ， 建 议 用 几 种 启发 式 方法 来 从 堆 中 分 配 内 存 。 最 佳 适 应 算法 是 搜索 
整个 空闲 列表 以 查找 其 大 小 最 接近 所 请 求 内 存 的 空间 。 首 次 适应 算法 是 从 空闲 列表 的 首部 开 

始 搜索 ， 直 至 搜索 到 第 一 个 足够 大 的 空间 。 循 环 首 次 适应 算法 与 首次 适应 算法 类 似 ， 它 也 是 
搜索 空闲 列表 中 第 一 个 足够 大 的 空间 ， 但 它 每 次 搜索 都 从 以 前 中 断 的 地 方 开始 ， 将 空闲 列表 
视 为 循环 链表 并 开始 搜索 ( 7.2 节 )。 最 差 适 应 算法 搜索 空闲 列表 以 找到 最 大 的 可 用 内 存 空间 ， 
如 果 该 列表 保存 为 一 个 优先 级 队列 (第 9 章 )， 会 比 搜索 整个 空闲 列表 的 速度 更 快 。 在 每 一 个 
算法 中 ， 从 所 选 的 内 存 空间 减 去 所 请 求 的 内 存量 后 ， 剩 余 的 内 存 空 间 会 返回 到 空闲 列表 中 。 

尽管 最 佳 适 应 算法 听 起 来 可 能 不 错 ， 但 由 于 所 选择 空间 的 剩余 部 分 偏 小 ， 故 最 易 产生 
外 部 碎片 。 首 次 适应 算法 快 ， 但 它 往往 在 空闲 列表 前 面 产生 很 多 的 外 部 碎片 ， 这 将 降低 之 后 
的 搜索 速率 。 循 环 首次 适应 算法 使 碎片 更 均匀 地 分 布 在 整个 内 存 堆 ， 从 而 降低 了 搜索 时 间 ， 
但 很 难 分 配 大 的 内 存 块 。 最 差 适应 算法 试图 通过 保留 尽 可 能 大 的 连续 内 存 空间 来 避免 这 种 
问题 。 


15.1.2 垃圾 回收 


有 些 语 言 (如 C 和 C ++)， 明 确 规定 对 象 的 存储 空间 由 程序 员 释 放 ， 而 这 是 初级 程序 员 
经 常 忽 略 的 任务 ,其 至 对 有 经 验 的 程序 员 来 说 也 是 令 人 泪 丧 的 编程 错误 的 根源 。 与 此 相反 ， 
Python 的 设计 者 将 内 存 管理 的 负担 完全 交 给 解释 器 。 解 释 器 负责 检测 “陈旧 ”对 象 的 进程 ， 
释放 用 于 这 些 对 象 的 空间 ， 并 返回 回收 空间 到 空闲 列表 ， 这 一 过 程 称 为 垃圾 回收 。 

要 执行 自动 垃圾 回收 ， 首 先 必须 有 方法 来 检测 到 那些 不 再 需要 的 对 象 。 由 于 解释 器 不 
能 有 效 分 析 任 意 Python 程序 的 语义 ， 它 依赖 于 以 下 用 于 回收 对 象 的 保护 规则 。 要 访问 程序 
中 的 一 个 对 象 ， 它 必须 有 该 对 象 的 直接 或 间接 引用 。 我 们 将 这 种 对 象 定义 为 活动 对 象 。 在 
定义 活动 对 象 时 ， 对 象 的 直接 引用 是 以 标识 符 的 形式 存在 于 活跃 的 命名 空间 ( 即 全 局 命名 空 
间 ， 或 任何 函数 的 本 地 命名 空间 )。 例 如 ， 执 行 命令 w = Widget) 后 ,标识 符 w 将 作为 新 的 
widget 对 象 的 引用 在 当前 的 命名 空间 定义 。 我 们 只 能 直接 引用 的 这 种 对 象 为 根 对 象 。 对 象 
的 间接 引用 是 发 生 在 一 些 其 他 活动 对 象 的 状态 中 的 引用 。 例 如 ， 如 果 前 面 例子 中 的 Widget 
实例 包含 一 个 列表 属性 ， 该 列表 也 是 一 个 活动 对 象 (因为 它 可 以 通过 使 用 标识 符 w 来 间接 
达到 )。 这 组 活动 对 象 是 递归 定义 的 ， 因 此 由 Widget 引用 的 列表 中 的 任何 对 象 也 归 为 活动 
对 象 。 

Python 解释 器 假设 活动 对 象 是 正在 运行 的 程序 中 使 用 的 活跃 对 象 ， 这 些 对 象 不 应 该 被 
释放 。 其 他 的 对 象 可 以 被 垃圾 回收 。Python 通过 以 下 两 个 策略 来 确定 哪些 是 活动 对 象 。 








引用 计数 

每 个 Python 对 象 的 状态 都 是 一 个 整数 ， 称 为 引用 计数 ， 即 计算 机 系统 中 任何 地 方 的 对 
象 有 多 少 次 引用 。 每 一 次 引用 赋 给 这 个 对 象 时 ， 该 对 象 的 引用 计数 递增 ， 每 一 次 的 引用 被 重 
新 分 配给 其 他 对 象 时 ， 原 对 象 的 引用 计数 递减 。 每 个 对 象 的 引用 计数 的 维护 增加 了 0(1) 空 
间 ， 并 且 每 次 引用 计数 的 递增 和 递减 操作 都 会 给 0(1) 空间 增加 额外 的 计算 时 间 。 

Python 解释 器 允许 运行 程序 来 检测 一 个 对 象 的 引用 计数 。 系 统 模块 中 有 一 个 getrefcount 
函数 ， 返 回 一 个 等 于 对 象 的 引用 计数 的 整数 并 作为 一 个 参数 传递 。 值 得 注意 的 是 ， 因 为 该 函 
数 的 形 参 要 赋 给 调用 方 的 实 参 ， 所 以 当 报 告 计 数 时 ， 在 函数 的 本 地 命名 空间 中 有 该 对 象 的 附 
加 引用 。 

引用 计数 的 优点 是 ， 如 果 一 个 对 象 的 计数 减 到 零 ， 那 么 该 对 象 不 可 能 是 活动 对 象 ， 因 此 
该 系统 能 够 立即 释放 该 对 象 (或 将 其 放置 在 准备 释放 的 对 象 的 队列 中 ) 。 

周期 检测 

若 对 象 的 引用 计数 为 零 ， 显 然 意味 着 它 不 可 能 是 活动 对 象 ， 但 重要 的 是 要 辨别 一 个 有 非 
零 引 用 计数 的 对 象 是 否 仍 没 资格 作为 活动 对 象 。 有 可 能 存在 一 组 对 象 ， 这 些 对 象 互相 引用 ， 
即使 这 些 对 象 到 根 对 象 都 是 不 可 达 的 。 

例如 ， 正 在 运行 的 Python 程序 有 一 个 标识 符 data， 它 是 使 用 双 链 表 实 现 序列 的 一 个 弛 
用 。 在 这 种 情况 下 ， 由 data 引用 的 列表 是 一 个 根 对 象 ， 作 为 列表 的 属性 存储 的 首部 和 尾部 
节点 是 活动 对 象 ， 因 为 列表 的 所 有 中 间 节 点 都 是 间接 引用 ， 并 且 所 有 元 素 作为 这 些 节 点 的 元 
素 引 用 。 如 果 标 识 符 data 离开 了 该 范围 或 将 被 重新 分 配给 其 他 对 象 ， 对 于 列表 实例 的 引用 
计数 可 能 变 为 零 ， 成 为 垃圾 回收 ,但 所 有 节点 的 引用 计数 仍 为 非 零 ， 由 上 面 的 简单 规则 将 阻 
止 其 垃圾 回收 。 

几乎 每 隔 一 段 时 间 ， 特 别 是 当 内 存 堆 中 的 可 用 空间 正在 变 得 越 来 越 稀缺 时 ，Python fff 
释 器 就 会 使 用 垃圾 回收 的 更 高 级 形式 来 收回 不 可 达 的 对 象 ， 尽 管 它们 的 引用 计数 非 零 。 有 不 
同 的 用 于 实现 周期 检测 的 算法 〈Python 中 的 GC 模块 的 垃圾 回收 机 制 是 抽象 的 ， 并 依赖 于 解 
释 需 的 实现 方式 )。 接 下 来 讨论 垃圾 回收 的 经 典 算法 : 标记 -清除 算法 。 

在 标记 — 清除 垃圾 回收 算法 中 ,我 们 设置 一 个 “标记 ”位 来 标识 每 个 对 象 是 否 是 活动 
对 象 。 当 确定 在 某 些 时 候 需 要 垃圾 回收 ， 我 们 暂停 所 有 其 他 活动 ， 并 清除 当前 在 内 存 堆 中 分 
配 的 所 有 对 象 的 标志 位 ， 然 后 通过 跟踪 活跃 的 命名 空间 来 标记 所 有 根 对 象 为 活动 对 象 。 我 们 
必须 确定 所 有 其 他 活动 对 象 一 一 从 根 对 象 可 达 的 对 象 。 为 了 有 效 地 做 到 这 一 点 ， 我 们 就 可 以 
( 见 14.3.1 节 ) 由 对 象 引 用 其 他 对 象 所 定义 的 有 向 图 进行 深度 优先 搜索 。 在 这 种 情况 下 ， 内 
存 堆 中 的 每 个 对 象 是 一 个 有 向 图 顶点， 并 且 从 一 个 对 象 到 另 一 个 对 象 的 引用 是 一 条 有 向 边 。 
通过 从 每 个 根 对 象 进行 深度 优先 搜索 ， 我 们 可 以 正确 识别 并 标记 每 个 活动 对 象 ， 这 一 过 程 被 
称 为 “标记 ”阶段 。 一 旦 这 个 过 程 完成 ， 再 通过 内 存 堆 扫描 并 回收 未 被 标记 的 对 象 正在 使 用 
的 任何 空间 。 这 时 ， 还 可 以 有 选择 地 将 内 存 堆 中 的 分 配 空间 合并 成 一 个 单独 的 块 ， 从 而 暂时 
消除 外 部 碎片 。 该 扫描 和 回收 过 程 被 称 为 “清除 ”阶段 。 当 清除 完成 时 ， 恢 复 运行 暂停 的 程 
序 。 因 此 ,标记 -清除 垃圾 回收 算法 会 按照 活动 对 象 的 数量 和 其 引用 的 数量 加 上 内 存 堆 的 大 
小 的 比例 ， 及 时 回收 未 使 用 的 空间 。 

就 地 执行 DFS 

标记 -清除 算法 能 正确 回收 内 存 堆 中 未 使 用 的 空间 ,但 在 “标记 ”阶段 面临 一 个 重要 问 
题 。 由 于 我 们 是 在 可 用 内 存 不 足 时 回收 内 存 空间 ， 因 此 必须 注意 在 垃圾 回收 期 间 不 要 使 用 额 
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外 的 空间 。 麻 烦 的 是 ，14.3.1 节 中 是 以 递归 形式 描述 DFS 算法 ， 可 以 使 用 的 空间 正比 于 图 
的 项 点 数 。 在 垃圾 回收 的 情况 下 ， 图 中 的 顶点 是 在 内 存 堆 中 的 对 象 ， 因 此 可 能 没有 这 么 多 内 
存 可 以 使 用 。 所 以 ， 唯 一 的 选择 就 是 找到 一 种 方法 来 就 地 执行 DFS 而 不 是 递归 执行 ， 也 就 
是 说 ， 必 须 用 固定 的 额外 空间 来 执行 DFS。 

就 地 执行 DFS 的 主要 思想 是 ， 模 拟 递归 堆栈 使 用 图 的 边 (在 垃圾 收集 的 情况 下 相当 于 


接 表 来 指向 在 DES HP v 的 父母 节点 。 返 回 到 v 时 (模拟 从 w 上 的 “递归 ”调用 返回 ),， 假 
设 有 方法 来 确定 哪些 边 需要 改变 ， 我 们 可 以 切换 到 指向 修改 的 边 wo 


15.1.3 Python 解释 器 使 用 的 额外 内 存 


15.1.1 节 已 经 讨论 过 Python 解释 器 如 何在 内 存 堆 中 为 对 象 分 配 内 存 ， 然 而 并 非 只 有 在 
运行 Python 程序 时 需要 使 用 内 存 。 我 们 将 在 本 节 讨 论 内 存 的 其 他 一 些 重要 用 途 。 

运行 时 调用 栈 

栈 在 Python 程序 的 运行 时 环境 中 有 很 重要 的 应 用 。 运 行 中 的 Python 程序 有 一 个 私有 
栈 ， 称 为 调用 栈 或 Python 解释 器 栈 ， 该 栈 用 于 跟踪 函数 调用 的 当前 活跃 ( 即 未 结束 的 ) 的 
操 套 序列 。 堆 栈 的 每 个 条 目 都 是 一 个 被 称 为 活动 记录 或 框架 的 结构 ， 存 储 了 函数 调用 的 重要 
信息 。 

在 调用 栈 的 顶部 是 正在 调用 的 活动 记录 ， 也 就 是 当前 控制 执行 的 函数 活动 。 栈 的 其 余 
元 素 是 挂 起 等 待 调 用 的 活动 记录 ， 也 就 是 函数 已 经 调用 男 一 个 函数 ， 目 前 等 待 男 一 个 函数 结 
束 时 返回 控制 给 前 函数 。 扒 栈 中 元 素 的 顺序 对 应 于 当前 函数 调用 的 链 。 当 一 个 新 函数 被 调用 
时 ， 调 用 该 函数 的 活动 记录 被 压 入 栈 。 调 用 结束 后 ， 它 的 活动 记录 从 栈 中 弹出 并 且 Python 
解释 天 恢复 先前 暂停 的 调用 过 程 。 

每 个 活动 记录 包含 代表 着 函数 调用 的 本 地 命名 空间 的 字典 (参考 1.10 节 和 2.5 节 对 命名 
空间 的 进一步 讨论 )。 命 名 空间 将 作为 参数 和 局 部 变量 的 标识 符 映射 到 对 象 的 值 ， 但 被 引用 
的 对 象 仍然 驻 留 在 内 存 堆 。 函 数 调用 的 活动 记录 还 包括 函数 定义 本 身 的 引用 以 及 一 个 特殊 变 
it ( 称 为 程序 计数 右 )， 包 含 当 前 正在 执行 的 函数 语句 的 地 址 。 当 一 个 函数 返回 控制 到 男 一 
个 函数 时 ， 该 挂 起 苑 数 存 储 的 程序 计数 器 使 得 解释 咒 正 确 继续 该 函数 的 运行 。 

递归 实现 

使 用 堆栈 实现 函数 能 套 调用 的 好 处 是 允许 程序 使 用 递归 。 如 第 4 章 中 讨论 的 ， 枯 数 可 以 
调用 其 本 上身。 本 章 隐 式 地 描述 了 调用 栈 的 概念 和 用 递归 跟踪 地 令 述 活动 记录 的 使 用 。 有 趣 的 
是 ， 早 期 的 编程 语言 (比如 COBOL 和 Fortran) 最 初 没 有 使 用 调用 栈 来 实现 函数 调用 。 但 由 
于 递归 的 优雅 和 效率 ， 几 乎 所 有 现代 编程 语言 都 使 用 调用 栈 来 实现 函数 调用 ， 包 括 经 典 语言 
的 当前 版 本 。 

递归 跟踪 的 每 一 层 对 应 于 在 递归 函数 的 执行 过 程 中 放置 在 调用 堆栈 上 的 活动 记录 。 在 任 
何 时 间 点 ， 调 用 栈 的 内 容 对 应 地 从 初始 函数 调用 到 当前 函数 的 所 有 层 。 为 了 更 好 地 说 明 调 用 
栈 如 何 使 用 递归 函数 ,我 们 回顾 Python 阶乘 

n! = n(n-1)(n-2)--:1 
函数 的 经 典 递归 定义 的 实现 ， 代 码 段 4-1 给 出 了 原始 代码 ， 图 4-1 给 出 了 递归 跟踪 。 第 一 次 
调用 factorial 函数 ， 它 的 活动 记录 包括 存储 参数 值 n 的 命名 空间 。 该 函数 递归 调用 函数 本 身 
用 来 计算 (n - D)!， 产 生 了 新 的 活动 记录 ， 有 自己 的 命名 空间 和 人 参数， 然后 压 人 调用 栈 。 接 
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下 来 ， 再 调用 自身 来 计算 (n - 2)， 等 等 。 递 归 调 用 链 和 调用 堆栈 的 大 小 长 为 n + 1， 最 深层 
f iE USE factorial(0)， 只 是 返回 1， 不 再 进一步 递归 。 运 行 时 堆栈 允许 阶乘 函数 的 几 个 
调用 同时 存在 。 每 个 活动 记录 存储 着 其 参数 的 值 和 最 终 被 返回 的 值 。 当 第 一 递归 调用 最 终 
终止 时 将 返回 (n — 1)! 的 值 ， 然 后 在 factorial 也 数 的 初始 调用 中 将 返回 结果 乘 以 n 从 而 计算 
H nlo 

操作 数 栈 

有 趣 的 是 ，Python 解释 需 在 另 一 个 地 方 也 使 用 栈 。 例 如 ， 算 术 表 达 式 ((a  b)*(c + d)ye 
就 是 解释 器 通过 使 用 操作 数 栈 进行 计算 。8.5 节 介 绍 了 如 何 使 用 表达 式 树 的 后 序 遍 历来 计算 
算术 表达 式 。 我 们 是 以 递归 方式 描述 该 算法 ,然而 这 种 递归 描述 可 以 通过 非 递 归 的 过 程 来 
实现 ， 只 需 包 含 一 个 操作 数 堆栈 。 一 个 简单 的 二 进 制 操作 ， 如 a + b， 通 过 将 a 压 栈 、.b 压 
栈 ， 然 后 调用 指令 从 堆栈 中 弹出 顶部 的 两 个 数 ， 执 行 相 应 的 二 进 制 操作 ， 并 且 将 计算 结果 
返回 到 堆栈 。 同 样 ， 从 内 存 中 写 元 素 或 读 元 素 的 指令 涉及 操作 多 个 栈 的 进 栈 和 出 栈 方法 的 
使 用 。 


15.2 ”存储 器 层次 结构 和 缓存 

随 着 社会 上 计算 使 用 量 的 与 日 俱 增 ， 应 用 软件 必须 管理 非常 大 的 数据 集 。 这 样 的 应 用 
包括 在 线 金 融 交 易 、 数 据 库 的 组 织 和 维护 以 及 客户 的 购买 记录 和 偏好 分 析 。 数 据 的 数量 可 以 
如 此 之 大 ， 算 法 和 数据 结构 的 整体 性 能 有 时 更 多 地 取决 于 访问 数据 的 时 间 而 不 是 处 理 器 的 
速度 。 


15.2.1 存储 器 系统 


为 了 容纳 大 数据 集 ， 计 算 机 有 不 同类 型 的 存储 器 层次 结构 ， 它 们 的 大 小 和 到 CPU 的 距 
离 有 所 不 同 。 最 接近 CPU 的 是 在 CPU 本 身 使 用 的 内 部 寄存 器 。 访 问 这 些 位 置 非常 快 ， 但 这 
样 的 空间 也 相对 较 少 。 层 次 结构 中 的 第 二 层 是 一 个 或 多 个 高 速 缓冲 存储 器 。 这 种 存储 空间 比 
CPU 的 寄存 器 集 大 得 多 ， 但 是 访问 它 需 要 更 长 的 时 间 。 层 次 结构 中 的 第 三 层 是 内 部 存储 器 ， 
也 称 为 主 存储 器 或 核心 存储 器 。 内 部 存储 器 比 高 速 缓冲 存储 器 大 得 多 ， 但 也 需要 更 多 的 访问 
时 间 。 层 次 结构 中 的 外 一 层 是 外 部 存储 器 ， 它 通常 由 磁盘 、CD 驱动 器 、DVD 驱动 器 或 磁带 
组 成 。 这 个 存储 器 是 非常 大 的 ， 但 也 很 慢 。 通 过 外 部 网 络 存 储 数 据 可 以 被 看 作 该 层次 结构 的 
又 一 级 别 ， 它 有 更 大 的 存储 容量 ， 但 


访问 速度 更 慢 。 因 此 ， 可 以 将 计算 机 = 
存储 器 层次 结构 看 作 包含 五 层 或 更 多 

的 层 ， 其 中 每 一 层 比 前 一 层 的 存储 容 

量 更 大 ， 但 访问 速度 更 慢 ( 见 图 15- E 

1 )。 在 程序 的 执行 过 程 中 ， 数 据 定期 ”更 天 

从 一 层 复制 给 相 邻 层 ， 这 些 传输 也 成 

为 计算 的 瓶颈 。 图 15-1 内 存 分 层 


15.2.2 ”高 速 缓存 策略 


存储 器 层次 结构 对 程序 性 能 的 影响 很 大 程度 上 取决 于 所 要 解决 的 问题 的 大 小 和 计算 机 系 
统 的 物理 特性 。 通 常情 况 下 ， 瓶 颈 发 生 在 两 个 层次 的 存储 器 层次 结构 中 ， 可 以 容纳 所 有 的 数 
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据 项 层次 和 一 个 低 于 该 层 的 一 层 。 对 于 在 主 存储 器 中 完全 匹配 的 问题 ， 最 重要 的 两 个 层次 是 
高 速 缓冲 存储 器 和 内 部 存储 器 。 访 问 内 部 内 存 的 时 间 可 能 是 高 速 缓冲 存储 器 的 10 到 100 fir. 
因此 ， 能 够 在 高 速 缓冲 存储 器 中 执行 大 多 数 的 存储 器 访问 。 此 外 ， 对 于 在 主 存储 器 中 不 完全 
匹配 的 问题 ， 两 个 最 重要 的 层次 是 内 部 存储 器 和 外 部 存储 器 。 这 里 的 差异 更 大 ， 通常 对 于 外 
部 存储 设备 如 磁盘 的 访问 时 间 是 内 部 存储 器 的 100 000 ~ 1 000 000 fit. 

换个 角度 看 这 个 数字 ， 想 象 有 位 在 巴尔 的 摩 的 学 生 想 发 送 一 条 要 钱 的 消息 给 他 在 芝 加 
哥 的 父母 。 如 果 学 生 给 他 的 父母 发 送 电 子 邮 件 ， 大 约 5 秒 消息 可 以 到 达 他 们 的 家 用 电脑 。 将 
这 种 模式 下 的 通信 对 应 于 访问 CPU 的 内 部 存储 器 。 另 一 种 通信 方式 对 应 于 访问 外 部 存储 器 ， 
慢 500 000 倍 ， 就 是 该 学 生 亲 自 步行 到 芝加哥 传递 消息 ， 如 果 他 可 以 平均 每 天 20 英里 ， 这 
将 需要 一 个 月 的 时 间 ， 因 此 我 们 应 该 要 尽 可 能 少 地 访问 外 部 存储 器 。 

尽管 在 不 同 层 的 访问 存在 巨大 差异 ， 但 大 多 数 算法 设计 时 并 没有 考虑 到 存储 层次 。 事 
实 上 到 目前 为 止 ， 在 这 本 书 中 描述 的 所 有 算法 假定 所 有 的 存储 访问 都 是 平等 的 。 这 种 假设 似 
乎 起 初 是 一 个 巨大 的 疏忽 ， 而 且 我 们 只 是 在 最 后 一 章 提 出 ， 但 有 很 好 的 理由 进行 这 个 合理 的 
假设 ， 

假定 所 有 存储 器 的 访问 需要 相同 时 间 的 理由 之 一 是 ， 因 为 有 些 特定 设备 的 内 存 的 大 
小 信息 往往 很 难得 到 。 事 实 上， 关于 存储 器 大 小 的 信息 可 能 很 难得 到 。 例 如 ， 很 难 在 某 
一 个 特定 的 计算 机 体系 结构 配置 中 定义 一 个 在 许多 不 同 的 计算 机 平台 上 运行 的 Python fé 
序 。 当 然 ， 可 以 使 用 特定 的 架构 信息 ， 如 果 我 们 使 用 它 的 话 (我 们 将 在 本 章 后 面 说 明 如 
何 开发 这 些 信息 )。 但 是 ,一 旦 在 一 定 的 架构 配置 中 优化 了 软件 ， 软 件 将 不 再 是 设备 无 关 
的 。 幸 运 的 是 ， 这 样 的 优化 不 总 是 必要 的 ， 第 二 个 理由 是 假设 所 有 存储 器 的 访问 需要 相同 
时 间 

缓存 与 分 块 

内 存 访 问 平等 假设 的 另 一 个 理由 是 ， 操 作 系统 的 设计 人 员 已 经 开发 了 通用 的 机 制 ， 人 允许 
更 快 访问 内 存 。 这 些 机 制 是 基于 大 多 数 软件 所 具备 的 两 个 重要 的 局 部 参考 特性 : 

e 时 间 局 部 性 。 如 果 程 序 访问 一 个 特定 的 内 存 位 置 ， 那 么 在 不 久 的 将 来 它 再 次 访问 相 

同位 置 的 可 能 性 会 增加 。 例 如 ， 在 几 个 不 同 的 表达 式 使 用 计数 器 变量 的 值 是 很 常见 
的 ， 包括 递增 计数 器 的 值 。 事 实 上 ,计算 机 架构 师 共 同 的 格言 是 ， 在 一 个 程序 所 花 
费 的 90% 的 时 间 在 其 10% 的 代码 上 。 

e 空间 局 部 性 。 如 果 程 序 访问 某 个 内 存 位 置 ， 它 不 久之 后 访问 附近 的 其 他 位 置 的 可 能 
性 会 增加 。 例 如 ， 程 序 使 用 矩阵 时 ， 可 能 会 以 连续 或 近乎 连续 的 方式 访问 和 矩阵 的 
位 置 。 

计算 机 科学 家 和 工程 师 们 进行 了 大 量 的 软件 分 析 实 验证 明 ， 大 多 数 软件 都 具备 这 类 局 部 
Z5 TRE. BIA. RE for 循环 重复 扫描 矩阵 将 显示 出 这 两 种 局 部 性 。 

反 过 来 ， 时 间 局 部 性 和 空间 局 部 性 为 多 层 计 算 机 存储 器 系统 提供 了 两 个 基本 设计 选择 
(其 实 存在 于 高 速 缓冲 存储 器 和 内 部 存储 器 之 间 的 接口 ， 以 及 在 内 部 存储 器 和 外 部 存储 器 之 
间 的 接口 )。 

第 一 种 设计 选择 称 为 虚拟 内 存 。 这 个 概念 包括 提供 和 二 级 存储 器 容量 一 样 大 的 地 址 空 
间 ， 只 有 当 被 寻 址 时 ， 才 将 位 于 第 二 层 的 数据 传送 到 第 一 层 。 虚 拟 存储 器 不 限制 程序 员 对 内 
部 存储 器 容量 的 约束 。 将 数据 存 到 主 存储 器 的 概念 称 为 高 速 缓 在 ， 它 是 由 时 间 局 部 性 的 特性 
促使 的 。 通 过 将 数据 存 人 主 存储 器 中 ， 我 们 希望 它 会 很 快 再 次 访问 ， 并 且 在 不 久 的 将 来 将 能 
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够 快速 响应 所 有 这 些 数据 的 请 求 。 

第 二 种 设计 选择 是 由 空间 局 部 性 促使 的 。 iB LEADER 
具体 来 讲 ， 如 果 要 访问 存储 在 第 二 级 存储 器 的 
数据 ,那么 将 一 个 大 的 连续 空间 包括 要 访问 的 
位 置 的 块 存 和 人 第 一 级 存储 器 ( 见 图 15-2 )。 这 。 外 部 存储 器 寻 址 空间 上 的 据 
个 概念 称 为 分 决 ， 并 且 它 是 由 很 快 会 访问 第 “后 二 5 
二 级 存储 器 相 邻 位 置 的 期 望 所 促使 的 。 在 高 
速 缓冲 存储 器 和 内 部 存储 器 间 的 接口 中 ， 这 图 15-2 “外 部 存储 器 中 的 块 
种 块 通常 称 为 高 速 缓存 行 ， 并 且 在 内 部 存储 
器 和 外 部 存储 器 间 的 接口 中 ， 这 种 块 通常 称 为 页 。 

缓存 和 分 块 实现 的 虚拟 内 存 往往 让 我 们 察觉 到 两 级 存储 器 的 速度 比 实际 上 的 快 得 多 。 但 
是 ， 还 有 一 个 问题 ， 一 级 存储 器 比 二 级 存储 器 内 存 小 得 多 。 此 外 ， 由 于 存储 系统 使 用 分 块 ， 
当 一 些 程序 可 能 达到 它 从 二 级 存储 器 请 求 数据 的 点 时 ， 但 一 级 存储 器 中 的 块 有 可 能 满 了 。 为 
了 满足 该 请 求 ， 并 保持 使 用 缓存 和 分 块 ， 在 这 种 情况 下 我 们 必须 从 一 级 存储 器 取出 一 些 块 ， 
以 腾 出 空间 给 从 二 级 存储 器 取出 的 新 的 块 。 

浏览 器 中 的 缓存 

决定 依次 取出 哪些 块 给 数据 结构 和 算法 设计 带 来 了 一 些 有 趣 的 问题 。 为 此 ， 我 们 考虑 
当 再 次 访问 网 页 时 出 现 的 相关 问题 。 根 据 时 间 局 部 性 来 看 ， 在 缓存 中 存储 网 页 副本 是 有 好 处 
的 ， 当 请 求 再 次 发 生 时 ， 它 能 够 快速 检索 到 这 些 页 面 。 这 有 效 地 创建 了 一 个 以 缓存 作为 更 
小 、 更 快 的 内 部 存储 器 和 网 络 作为 外 部 存储 器 的 两 级 存储 器 层次 结构 。 特 别 是 ， 假 设 有 一 个 
m 个 “ 插 权 ”的 缓冲 存储 器 ， 可 以 包含 Web 页 面 ， 假 设 一 个 网 页 可 放置 在 高 速 缓存 中 的 任 
何 一 个 插 模 中。 这 称 为 全 相 联 高 速 缓冲 存储 器 。 

浏览 器 会 运行 不 同 的 网 页 。 每 次 浏览 器 请 求 这 样 一 个 网 页 p， 浏 览 器 确定 (使 用 快速 测 
iX) 网 页 p 是 否 改变 且 当 前 是 否 在 高 速 缓存 中 。 如 果 网 页 p 在 高 速 缓存 中 ， 则 该 浏览 器 使 用 
缓存 副本 就 能 满足 请 求 。 如 果 网 页 p 不 在 高 速 缓存 中 ， 对 于 网 页 p 的 页 面 请求 将 要 搜索 整个 
因特网 ， 并 传输 到 缓存 中 。 如 果 高 速 缓存 中 的 m 个 插 槽 中 的 一 个 是 可 用 的 ， 则 浏览 器 将 网 
页 p 分 配 到 任 一 个 空 柳 中 。 但 是 ， 如 果 高 速 缓冲 存储 器 的 m 个 单元 都 被 占用 时 ,计算 机 必 
须 确定 取出 哪些 先前 浏览 过 的 网 页 然后 驱逐 ， 并 由 网 页 p 代替 。 当 然 ， 有 很 多 不 同 的 策略 用 
来 确定 网 页 的 取出 。 

页 面 置换 策略 

一 些 较 知名 的 页 面 替换 策略 ( 见 图 15-3) 如 下 : 

e 先进 先 出 策略 (FIFO)。 置 换 在 主 存 中 停留 时 间 最 长 的 页 面 ， 也 就 是 在 最 远 的 过 去 传 

输 到 缓存 中 的 页 面 。 

e 最 近 最 久未 使 用 策略 (LRU)。 置 换 在 过 去 最 远 一 次 请 求 的 页 面 。 

此 外 ， 我 们 可 以 考虑 一 个 简单 的 、 纯 随机 的 策略 。 

e 随机 策略 。 在 缓存 中 随机 置换 一 个 页 面 。 

随机 策略 是 最 容易 实施 的 策略 之 一 ， 因 为 它 仅 需 要 一 个 随机 或 伪 随 机 数 生成 器 。 人 参与 实 
施 这 一 策略 的 开销 是 每 一 个 页 面 置换 所 需 的 额外 空间 O(D)。 此 外 ， 对 于 每 个 页 面 请 求 都 没 
有 额外 的 开销 ， 除 了 确定 该 页 是 否 是 在 缓存 中 。 不 过 ， 这 一 策略 并 没有 试图 采取 根据 用 户 的 
浏览 表现 出 任何 时 间 局 部 性 的 优势 。 
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新 块 E 
e m 








旧 块 (最 近 用 到 的 ) 





上 一 次 使 用 : 7: 25am 8:12am 9: 22am 6: 50am 8: 20am 10: 02am 9: s0am 


图 15-3 ”随机 策略 、FIFO 策略 和 LRU 页 面 置换 策略 


先进 先 出 策略 的 实现 相当 简单 ， 因 为 它 仅 需要 一 个 队列 2 来 存储 缓存 中 引用 的 页 面 。 
当 被 浏览 器 引用 时 ， 页 面 会 进入 队列 CO， 并 且 会 存 人 到 高 速 缓存 。 当 页 面 需要 被 取出 时 ， 计 
算 机 简单 地 执行 队列 O 的 出 队 操作 来 确定 置换 哪个 页 面 。 因 此 ， 这 一 策略 还 需 提 供 每 个 页 
面 替换 所 需 的 O (1 ) 空间 。 同 时 ，FIFO 策略 对 页 面 请 求 没有 额外 的 开销 ， 而 且 它 试图 展示 
一 些 时 间 局 部 性 的 优势 。 

LRU 策略 比 FIFO 策略 更 深 一 步 ， 总 是 通过 取出 最 近 最 少 使 用 的 页 面 来 尽 可 能 多 地 展示 
时 间 局 部 性 的 优势 。 从 策略 的 角度 来 看 ， 这 是 一 个 很 好 的 方法 ,但 从 实现 成 本 的 角度 看 花费 
大 。 也 就 是 说 ， 它 优化 时 间 和 空间 局 部 性 的 方式 是 相当 昂贵 的 。 实 施 LRU 策略 需要 使 用 支 
持 更 新 现 有 网 页 的 优先 级 的 可 适应 优先 级 队列 O WR O 是 基于 链表 来 实现 排序 序列 ， 则 
每 个 页 面 请 求 和 页 面 置换 的 开销 需要 O (1) 空间 。 当 0 中 插入 一 个 页 面 或 更 新 其 优先 级 时 ， 
该 页 面 在 Q 中 被 赋予 最 高 级 ， 并 且 放 置 在 链表 的 末尾 ， 这 需要 在 O (1) 时 间 内 完成 。 虽 然 
LRU 策略 具有 固定 的 时 间 开 销 ， 但 使 用 上 述 的 实施 方式 所 涉及 的 常量 条 件 包 含 额 外 时 间 的 
开销 和 用 于 优先 队列 O 上 的 额外 的 空间 ， 从 实用 角度 来 看 这 个 策略 缺少 吸引 力 。 

由 于 这 些 不 同 的 页 面 替换 策略 有 不 同 的 实施 难度 和 展示 局 部 性 优势 的 程度 ， 自 然 ， 应 对 
比分 析 这 些 方法 ,来 看 看 哪 一 种 方法 是 最 好 的 。 

从 最 坏 情况 的 角度 看 ，FIFO 和 LRU 策略 是 相当 没有 吸引 的 行为 。 例 如 ， 假 设 在 高 速 组 
存 有 m 个 页 面 ， 对 于 一 个 循环 请 求 m + 1 个 页 面 的 程序 考虑 用 FIFO 和 LRU 策略 进行 页 面 
置换 。 无 论 是 FIFO 还 是 LRU 策略 ， 对 这 样 序列 的 页 面 请 求实 现 效 果 都 很 差 ， 因 为 它们 对 
于 每 一 个 页 面 请 求 都 要 进行 页 面 替 换 。 因 此 ， 从 最 坏 的 情况 来 看 ， 我 们 可 以 想象 这 些 策略 几 
乎 是 最 糟糕 的 一 一 对 于 每 一 个 页 面 请 求 ， 它 们 都 需要 页 面 替换 。 

这 种 最 坏 情况 的 分 析 是 有 点 过 于 悲观 ,但 是 它 集中 于 每 个 协议 的 页 面 请 求 的 一 个 坏 序列 
的 行为 。 理 想 的 分 析 是 在 所 有 可 能 的 页 面 请 求 序列 比较 这 些 方法 。 当 然 ， 不 可 能 做 到 详尽 ， 
但 已 经 有 大 量 的 实验 模拟 来 自 真实 程序 的 页 面 请 求 序列 。 基 于 这 些 实验 的 比较 ，LRU 策略 
已 被 证 明 是 优 于 FIFO 策略 ， 当 然 通常 比 随机 策略 更 好 。 





15.3 ”外 部 搜索 和 B 树 

考虑 到 不 适合 在 主 存储 器 (如 一 个 典型 的 数据 库 ) 中 维护 大 集合 信息 。 在 这 方面 ， 我 们 
指 的 是 将 二 级 存储 器 块 作为 磁盘 块 。 同 样 ， 我 们 将 主 存储 器 和 二 级 存储 器 间 块 的 传输 作为 磁 
盘 传 输 。 回 顾 主 存 储 器 访问 和 磁盘 访问 间 的 巨大 时 间 差 异 ， 在 外 部 存储 器 中 维护 大 集合 信息 
的 主要 目标 是 尽量 减少 执行 查询 或 更 新 所 需 的 磁盘 传输 的 数量 。 我 们 指 的 是 该 算法 所 涉及 的 
UO 复杂 性 。 

一 些 低 效 的 外 部 存储 器 表示 

我 们 支持 的 典型 操作 是 在 图 中 的 搜索 关键 字 。 如 果 将 n 个 无 序 项 存储 在 双向 链表 中 ， 在 
链表 中 搜索 特定 键 在 最 坏 情 况 下 需 n 次 传输 ， 因 为 执行 链表 上 的 每 个 链表 节点 可 能 会 访问 存 
储 嚣 中 的 不 同 块 。 

我 们 可 以 通过 使 用 基于 数组 的 序列 减少 块 传输 的 数量 。 因 为 空间 局 部 性 原理 ， 执 行 一 个 
数组 的 有 序 搜索 只 需 OnB) 个 块 传输 ， 其 中 B 表 示 一 个 块 中 元 素 的 数目 。 这 是 因为 访问 数 
组 的 第 一 个 元 素 实际 上 是 检索 第 一 个 B 元 素 ， 每 个 连续 块 都 是 以 此 类 推 。 值 得 一 提 的 是 ， 仅 
使 用 紧凑 数组 表示 时 才能 达到 O(n/B) 的 块 传输 (参见 5.2.2 节 )。 标 准 的 Python 列表 类 是 一 
个 引用 容器 ， 所 以 即使 按 引用 序列 存储 在 数组 中 ， 在 搜索 期 间 被 检查 的 实际 元 素 一 般 不 按 顺 
序 存储 在 存储 器 中 ， 从 而 导致 在 最 坏 的 情况 下 需要 n 个 块 传输 。 

我 们 可 以 用 一 个 有 序数 组 存储 序列 。 在 这 种 情况 下 ， 通 过 二 分 搜索 ， 只 需 执 行 O (log2 
n) 次 传输 ， 这 是 一 个 很 好 的 改进 。 但 是 ， 不 能 从 块 传输 得 到 显著 的 好 处 ， 因 为 二 分 搜索 过 
程 中 每 个 查询 可 能 会 在 不 同 的 块 中 进行 。 通 常 ， 更 新 操作 对 有 序数 组 来 说 成 本 很 高 。 

由 于 这 些 简单 的 实现 1/ O 效率 低下 ,我 们 应 该 考虑 对 数 时 间 内 部 存储 策略 ， 即 使 用 平 
HA (如 AVL 树 或 红 黑 树 ) 或 对 数 平均 情况 下 查询 和 更 新 的 其 他 搜索 结构 (如 跳 转 表 或 
伸展 树 )。 通 常 ， 在 这 些 结构 中 查询 或 更 新 所 访问 的 每 个 节点 将 是 在 不 同 的 块 中 进行 。 因 此 ， 
这 些 方法 在 最 坏 的 情况 下 执行 查询 或 更 新 操作 都 需要 O (1log2 ) 次 传输 。 但 是 ,我 们 可 以 做 
得 更 好 ! 可 以 执行 批量 查询 和 更 新 只 用 O(logs n) = O(logn/logB) 次 传输 。 


15.3.1 (a, b) 树 


为 了 减少 搜索 时 外 部 存储 器 访问 的 次 数 ， 可 以 使 用 多 路 搜索 树 CUL 11.5.1 节 ) 来 表示 
图 。 这 种 方法 产生 了 ( 2，4 ) 树 数据 结构 ， 也 称 为 (a, b) 树 。 

(a,b) 树 是 一 棵 多 路 搜索 树 ， 它 的 每 个 节点 具有 a 一 0 个 孩子 节点 ， 存 储 着 (a-1)~(b-1) 
个 记录 。 在 (a, b) 树 中 搜索 ， 插 人 和 删除 记录 的 算法 是 (2，4 ) 树 直接 缩影 。(2，4 ) 树 
缩影 到 (a, b) 树 的 优点 在 于 ， 一 棵 广义 类 树 提 供 了 一 个 灵活 的 搜索 结构 ， 其 中 节点 的 多 少 
和 各 种 映射 操作 的 运行 时 间 取 决 于 参数 a 和 参数 bp。 通过 设置 参数 a A b KARERA 
小 ， 我 们 可 以 根据 该 数据 结构 取得 良好 的 外 部 存储 性 能 。 

(a, b) 树 的 定义 

(a, b) 树 的 参数 a A b 是 整数 且 , 满足 2 < a < (b+1) /2。(a, b) 树 是 一 棵 多 路 搜索 
树 ， 具 有 以 下 附加 限制 : 

e 大 小 属性 : 每 个 内 部 节点 至 少 有 a 个 孩子 节点 ， 至 多 有 4b 个 孩子 节点 ， 根 节点 除外 。 

e 深度 属性 : 所 有 外 部 节点 具有 相同 的 深度 。 

命题 15-1: 存储 n 个 记录 的 (a，b) 树 的 高 度 是 O(log n/log b) 到 O(log n/log a) 之 间 。 

WEBB: 设 7T 是 存储 个 记录 的 (a. b) 树 , hh 是 7T 的 高 度 。 我 们 通过 建立 如 下 等 式 来 证 
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明 这 个 命题 。 
1 1 n+l 
a eg 3 
根据 大 小 属性 和 深度 属性 ，7 的 外 部 节点 的 数量 w" 在 2a”' 到 4b 之 间 。 
根据 命题 11-7 可 知 ，n" = n+ 1 因此 ， 
pp 
再 同时 取 从 2 为 底 的 对 数 ， 得 到 ， 
(h-l)loga+l<log(n+1)<hlogb 

通过 不 等 式 运算 完成 以 上 证 明 。 a 

搜索 和 更 新 操作 

回顾 在 多 路 搜索 树 了 中 ,7 的 各 节点 Y 持 有 二 级 结构 M(v)， 这 本 身 就 是 一 个 图 CUL 
11.5.1 15), WR THE (a, b) 树 ,那么 MV) 最 多 存储 b Aid. Sb) 表示 在 图 M(v) 中 执 
行 搜索 中 的 时 间 。 这 与 在 11.5.1 节 给 出 的 多 路 搜索 树 (a, b) 搜索 算法 是 完全 一 样 。 因 此 ， 
—HBU n Kids (a, b) 树 了 需要 O(f(b)llog a* log n) 的 时 间 。 注 意 ， 如 果 4b 为 常数 (并 
且 a 也 是 )， 那 么 搜索 时 间 为 O(log n). 

(a, b) 树 主要 用 于 存储 在 外 部 存储 器 的 映射 。 也 就 是 说 ， 要 尽量 减少 磁盘 访问 ， 我 们 
选择 参数 a 和 上， 使 每 个 树 节点 占用 一 个 磁盘 块 (如 果 我 们 想 简单 地 计算 块 传输 ， 则 令 Ab) = 
1 )。 在 这 种 情况 下 提供 合适 的 a 和 4 值 会 产生 一 个 数据 结构 ， 我 们 简 述 为 B 树 。 在 我 们 描 
述 这 种 结构 前 ,但 是 ， 让 我 们 来 讨论 如 何在 (a，b) 树 中 进行 插入 和 删除 。 

(a, b) 树 的 插入 算法 类 似 于 (2, 40 树 。 当 在 45 节 点 w 中 插入 记录 时 ， 就 会 成 为 非法 
的 (b+ 1) 节 点 ， 此 时 发 生 上 洲 。( 一 个 多 路 树 中 的 一 个 节点 如 果 它 有 4d 个 孩子 ,就 是 d 一 节 
Kho) 为 了 补救 上 洲 ， 我 们 移动 w 的 一 半 记 录 给 其 父母 节点 ， 并 将 w 替换 为 [(b + 1)/2] 节点 
w' 和 [(5 + 1)/2] 节点 w"。 现 在 我 们 明白 了 在 (a，b) 树 的 定义 中 为 什么 需要 a < (b+ 1)/2。 
注意 到 分 散 的 结果 ， 我 们 需要 构建 两 个 二 级 结构 Mw) 和 Mw") 

M Ca, b) 树 中 删除 记录 的 算法 也 类 似 于 (2，4) 树 。 当 在 a - 节点 多 中 删除 一 条 记 
录 时 ， 就 会 成 为 非法 的 (a - 1) - 节点 ， 此 时 发 生 下 汶 ， 根 节点 除外 。 为 了 补救 下 溢 ， 我 们 
通过 将 w 的 兄弟 节点 转换 成 非 a 节点 , 或 将 w 与 其 兄弟 节点 融合 成 a 节点 ,合成 的 新 节 
点 是 (2a - 1 ) 节点。 这 是 需要 a < (b+ 1)/2 的 另 一 个 理由 。 表 15-1 显示 了 (a, b) 树 的 
性 能 。 








+1 


R 15-1 Ala, b) 树 了 实现 的 ]- 节 点 的 时 间 界 限 。 假 定 了 节点 的 二 级 结构 对 有 b) 函数 和 9(b) 函数 
支持 在 Kb) MARR, E g(b) 时 间 内 分 开 和 合成 。 当 只 计算 磁盘 传输 时 ， 时 间 复 杂 度 能 





达到 O(1) 
RO 作 运行 时 间 
b 
M[k] O LO iog J 





M[k] =v of log n) 
log a 


del M[k] O £0, n] 
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15.3.2 B 树 


(a, b) 树 数 据 结构 中 的 一 个 版 本 ， 也 是 外 部 存储 器 维护 信息 常用 的 方法 ， 称 为 B 树 ( 见 
图 15-4)。 一 个 4d 阶 B 树 ,满足 a=[4d/2 | 和 b= d。 既 然 已 经 讨论 了 (a, b) 树 的 标准 查询 和 
更 新 方法 ， 这 里 只 讨论 B 树 的 1/O 复杂 性 。 








图 15-4 ESR 


B 树 的 一 个 重要 属性 是 可 以 选择 4g， 使 得 一 个 节点 中 存储 的 dg- 1 个 键 和 4 个 孩子 的 引 
用 可 以 紧凑 地 装 和 人 一 个 磁盘 块 ， so E ) 树 中 
的 搜索 和 更 新 操作 的 分 析 中 假设 a 和 4b 正比 于 B。 因 此 ， 每 次 访问 一 个 节点 来 执行 搜索 或 更 
新 操作 时 ， f(b) g(b) 的 时 间 复 杂 度 都 是 O(1), i 

通过 上 述 观 察 ， 检 测 到 树 的 每 一 次 执行 搜索 或 更 新 操作 最 多 需要 O(1) 节点 ， 因 此 对 B 
树 的 任意 搜索 或 更 新 仅 需 要 O(log| 4/2 1n)， 也 就 是 O(log n/log B) 次 块 传输 。 例 如 ,对 B 
树 完 成 一 次 操作 就 是 在 节点 中 插入 新 记录 ， 如 果 由 于 此 操作 ， 节 点 上 溢 (有 q+ 1 个 孩子 节 
点 )， 那 么 该 节点 会 分 成 两 个 节点 ， 分 别 有 L (dg+ 1/2) 和 [d+ 1)/2 | 个 孩子 节点 。 该 过 程 
在 接 下 来 的 每 一 层 都 重复 此 操作 ， 直 至 到 达 O(logs n) 层 。 

同样 ， 如 果 删 除 操 作 导 致 一 个 节点 下 溢 (有 「 4/21-1 个 孩子 节点 )， 那 么 使 用 至 少 有 
[d/2 1+1 个 孩子 节点 的 兄弟 节点 或 将 这 个 节点 与 其 兄弟 节点 融合 (父母 节点 重复 此 操作 )。 同 
插入 操作 一 样 ， 这 将 向 上 继续 执行 至 多 O Clogs n) 层 。 每 个 内 部 节点 至 少 具 有 | 4/2 | 个 孩子 
节点 意味 着 用 于 支持 B 树 的 每 个 磁盘 块 至 少 有 一 半空 间 是 满 的 。 因 此 ， 有 以 下 结论 ; 

命题 15-2: n 个 记录 的 B 树 的 搜索 和 更 新 操作 的 1/ 复杂 度 为 O (logs n)， 并 且 使 用 
O(n/B) 个 块 ， 其 中 B 是 块 的 大 小 。 


15.4 外 部 存储 器 中 的 排序 


除了 数据 结构 (例如 映射 ) 需要 在 外 部 存储 器 实现 ， 还 有 许多 算法 也 必须 在 输入 集合 上 
操作 ， 它 们 太 大 了 ， 以 至 于 不 能 完全 适用 于 内 存 。 在 这 种 情况 下 ， 对 象 尽 可 能 少 使 用 块 传输 
来 解决 算法 问题 。 这 种 使 用 外 部 存储 器 的 最 典型 的 算法 是 排序 问题 。 

多 路 归并 排序 

在 外 部 存储 器 上 对 有 NN 个 对 象 的 集合 5S 进行 排序 是 一 个 有 效 的 方法 ， 相 当 于 我 们 熟悉 
的 归并 分 类 算法 上 一 个 简单 的 外 部 存储 变量 。 这 种 变量 背后 的 主要 思想 是 同时 递归 地 合并 排 
序列 表 ， 从 而 减少 递归 的 次 数 。 具 体 来 说 ， 这 种 多 路 归并 排序 ( multiway merge-sort) 方法 
的 一 个 高 层次 的 描述 是 把 S 分 为 规模 大 致 相当 的 4 个 子 集 5S,, S», …, Sv， 递 归 地 排序 每 一 个 
子 集 %$， 然 后 同时 将 所 有 4 个 已 经 排 好 序 的 列表 合并 为 一 个 S 的 排 过 序 的 形式 。 如 果 我 们 可 
以 只 使 用 O(n/ B) 次 磁盘 传输 执行 合并 过 程 ， 那 么 对 于 足够 大 的 n， 由 算法 执行 的 传输 总 量 满 
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足 如 下 递归 : 
t(n) 7 d * t(n/d)+cn/B 
对 于 一 些 常数 c m 1, Sn < BNA IEA, DIO TEIX — ERT 
块 传输 ， 使 所 有 的 对 象 到 内 存 中 ， 然 后 用 一 个 高 效 的 内 部 存储 算法 对 这 些 集合 排序 。 因 此 ， 
t(n) 的 停止 准则 是 : 
(n)=1, 如 果 n/B<1 
这 意味 着 一 个 闭合 解 ， 其 中 t(n) 是 O((n/B)logdn/8))， 这 是 
O((n / B) log(n / B) / log d) 
因此 ， 如 果 我 们 可 以 选择 gd 作为 O(MIB), Hh M 是 内 存 的 大 小 ， 然 后 最 坏 情况 下 这 种 
多 路 归并 算法 执行 块 传输 的 数量 将 会 变 得 非常 少 。 基 于 在 下 一 节 中 将 给 出 的 原因 ， 我 们 选择 
d - (MIB) - 1 
该 算法 留 给 我 们 的 唯一 选择 是 如 何 只 使 用 O(n/ B) 次 块 传输 来 执行 4 路 合并 。 


多 路 合并 


在 一 个 标准 的 合并 排序 中 ( 见 12.2 节 )， 合 并 过 程 通过 在 两 个 序列 各 自 开 头 反复 提取 最 
小 项 来 将 两 个 已 经 排 过 序 的 序列 合并 为 一 个 序列 。 在 4 路 合并 中 ， 在 4 个 序列 开头 我 们 反复 
寻找 最 小 项 ， 并 将 其 作为 合并 序列 的 下 一 个 元 素 ， 直 到 所 有 的 元 素 都 包括 在 内 才 停止 。 

在 外 部 存储 排序 算法 的 背景 下 ， 如 果 内 存 的 大 小 是 M， 并 且 每 一 块 的 大 小 为 了 B， 在 任意 
的 给 定时 间 ， 我 们 在 主 存 中 可 以 存储 多 达 MIB 的 块 。 我 们 专门 选择 d = (M / B) - 1， 使 得 在 
任意 的 给 定时 间 内 主 存 中 的 每 个 输入 序列 能 保留 一 块 ， 并 有 一 个 额外 的 块 用 作 合并 序列 的 组 
冲 ， 如 图 15-5 所 示 。 









41 49 50 57 
42 45 54 65 
37 46 52 58 | 66 75 
35 48 51 59 | 72 78 88 


图 15-5 4d=5,B8B=4 的 d 路 合并 。 块 在 主 存 中 用 灰色 表示 










44 53 56 


” o 








我 们 保持 内 存 中 每 个 输入 序列 中 最 小 的 未 加 工 的 元 素 ， 当 前 一 块 用 完 时 ， 从 一 个 序列 
中 请 求 下 一 块 。 同 样 ， 我们 使 用 内 存 的 一 块 来 缓冲 合并 序列 ， 当 缓冲 满 了 的 时 候 刷 新 外 存 的 
块 。 通 过 这 种 方式 ， 单 一 4 路 合并 中 执行 的 传输 总 数 是 O(n/B)， 因 为 我 们 每 扫描 列表 S; — 
次 ， 就 写 合并 列表 S 一次。 根据 计算 时 间 ， 选 择 可 以 使 用 O(d) 次 操作 执行 的 最 小 4 值 。 如 
果 愿 意 使 用 Od) 的 内 存 ， 可 以 在 每 个 队列 中 保持 一 个 优先 队列 以 识别 最 小 的 元 素 ， 从 而 在 
O(log q) 时 间 内 通过 删除 最 小 的 元 素 并 用 同一 序列 的 下 一 个 元 素 取 代 它 来 进一步 合并 。 因 
I, d 路 合并 的 内 部 时 间 是 O(n log d). 

命题 15-3 : 给 定 一 个 紧密 地 存储 在 外 存 中 个 元 素 的 基础 数组 序列 S， 我们 可 以 用 
O((n/B)log(n/B) /log(M/B)) 块 传输 和 O(n log n) 的 内 部 计算 对 5S 排序 ， 其 中 MM 是 内 存 的 大 
小 ，B 是 一 个 块 的 大 小 。 
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Julia 刚 买 了 一 台新 的 计算 机 ， 使 用 64 位 整数 来 处 理 内 存单 元 。 解 释 为 什么 Julia 在 她 的 生活 
中 将 永远 不 会 更 新 她 的 电脑 的 内 存 ， 这 可 能 将 会 是 她 的 电脑 内 存 的 最 大 尺寸 。 假 设 你 需要 有 
不 同 的 公式 来 代表 不 同 的 比特 。 

详细 地 描述 从 一 个 (a, b) 树 上 添加 或 删除 一 项 的 算法 。 

假设 了 是 一 棵 多 叉 树 ， 其 中 每 个 内 部 节点 至 少 有 5 个 、 最 多 有 8 NAT. M aM b HEKE 
少 的 时 候 了 是 一 棵 有 效 的 Ca, b) fd? 

当 4 的 值 为 多 少时 ， 上 一 题 中 的 树 7 是 一 个 4 阶 的 B 树 。 

考虑 一 个 由 四 页 组 成 的 初始 为 空 的 内 存 缓 存 。LRU 算 法 会 导致 页 面 请 求 序列 
(2,3,4,1,2,5,1,3,5,4,1,2,3 ) 有 多 少 缺 页 ? 

考虑 一 个 由 四 页 组 成 的 初始 为 空 的 内 存 缓存 。FIFO 算 法 会 导致 页 面 请 求 序列 
( 2,3,4,1,2,5,1,3,5,4,1,2,3 ) 有 多 少 缺 页 ? 

考虑 一 个 由 四 页 组 成 的 初始 为 空 的 内 存 缓存 。 随 机 算法 会 导致 页 面 请 求 序列 
( 2,3,4,1,2,5,1,3,5,4,1,2,3 ) 的 最 大 缺 页 数 是 多 少 ? 演示 在 这 种 情况 下 所 有 算法 产生 的 随机 选择 。 
画 出 插入 到 初始 为 空 的 7 阶 B 树 的 结果 ， 条 目的 键 为 (4,40,23,50,11,34,62,78,66,22,90,59,25,7 
2,64,77,39,12). 


描述 一 个 有 效 的 外 部 存储 算法 ， 用 于 删除 大 小 为 n 的 数组 列表 中 的 所 有 副本 项 目 。 

描述 一 个 外 部 存储 数据 结构 来 实现 堆栈 ADT， 使 需要 处 理 一 个 上 队列 的 push 和 pop 操作 的 
磁盘 总 数 是 O(UB)。 

描述 一 个 外 部 存储 数据 结构 来 实现 队列 ADT， 使 需要 处 理 一 个 上 队列 的 enqueue 和 dequeue 
操作 的 磁盘 总 数 是 OUUB)。 

描述 一 个 PositionalList ADT 的 外 部 存储 版 (7.4 节 )， 块 大 小 为 B， 这 样 在 最 坏 的 情况 下 使 用 
O(n/B) 传输 来 完成 一 个 长 度 为 n 的 列表 的 迭代 ， 并 且 ADT 的 所 有 其 他 方法 只 需要 0(1) 传 
输 。 

改变 定义 红 黑 树 的 规则 , 使 每 一 棵 红 黑 树 TT 有 一 个 相应 的 (4,8 ) 树 ， 反 之 亦 然 。 

描述 一 个 B 树 插入 算法 的 改进 版 本 ， 使 我 们 每 次 因为 节点 w 的 分 裂 创建 溢出 时 ， 对 所 有 w 
的 兄弟 再 分 配 键 ， 让 每 个 兄弟 拥有 大 致 相同 的 键 值 (可 能 是 w 父亲 的 级 联 分 裂 )。 使 用 这 种 
方案 填充 每 块 的 最 小 部 分 是 多 少 ? 

另 一 个 可 能 的 外 部 存储 映射 的 实现 是 使 用 跳跃 表 ,， 但 是 在 跳跃 表 的 任意 层级 上 ， 要 在 单个 块 
中 收集 OB) 节点 的 连续 的 组 。 特 别 地 ， 我 们 定义 一 个 d GY B 跳跃 表 来 表示 表 结 构 ， 其 中 
每 块 包含 至 少 d/2 个 列表 节点 和 最 多 4 个 列表 节点 。 在 这 种 情况 下 ， 也 选择 d 作为 一 个 可 以 
容纳 块 的 跳跃 表 级 别 中 列表 节点 的 最 大 数 。 描 述 对 于 一 个 B 跳跃 表 ， 我 们 如 何 修改 插入 和 删 
除 算法 以 使 结构 的 预期 高 度 为 O(log n/log B)» 

描述 如 何 使 用 B 树 实现 分 区 (合并 -查找 ) ADT ( 见 14.7.3 节 )， 使 合并 和 查找 操作 每 次 最 多 
使 用 O(log n/log B) 的 磁盘 传输 。 

假设 我 们 给 定 一 个 有 个 整数 键 元素 的 队列 S$， 使 在 S 中 的 一 些 元 素 是 “ 蓝 色 ”， 一些 是 “ 红 
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色 ”。 此 外 ， 如 果 键 值 相同 ， 则 一 个 红色 元 素 e 匹 配 一 个 蓝 色 元 素 太 为 寻找 8 中 所 有 的 红 - 
蓝 对 ， 请 描述 一 个 有 效 的 外 部 存储 算法 。 你 的 算法 有 多 少 磁 盘 传 输 需 要 执行 ? 

C-15.18 ”考虑 页 面 缓存 问 题 ， 内 存 缓存 可 以 容纳 m 页 ， 并 且 我 们 给 定 一 个 有 nn 个 请 求 的 序列 p 取 自 m+1 
个 可 能 的 页 面 池 。 为 脱 机 算法 描述 最 佳 策略 ， 并 显示 它 一 共 能 导致 最 多 m + n / m 的 缺 页 ， 
从 一 个 空 的 缓存 开始 。 

C-15.19 ”描述 一 个 有 效 的 外 部 存储 算法 ， 该 算法 可 以 确定 是 否 一 个 大 小 为 n 的 整 型 数组 包含 一 个 出 现 
次 数 大 于 n/2 的 值 。 

C-15.20 考虑 到 页 面 缓存 策略 ， 基 于 最 不 经 常 使 用 (LEFU) 规则 ， 当 请 求 新 的 页 面 时 淘汰 最 不 经 常 进 
入 缓存 中 的 页 面 。 如 果 有 相同 使 用 频率 的 页 面 ，LFU 淘汰 最 不 常 使 用 的 且 缓 存 时 间 最 长 的 页 
面 。 现 有 一 个 n 个 请 求 的 序列 P， 证明 对 于 m 页 的 缓存 LFU 可 引起 Q(n) 次 缺 页 ， 然 而 最 优 
算法 将 只 引起 Om) 次 缺 页 。 

C-15.21 假设 在 d 阶 B 树 7 中 有 节点 搜索 函数 (4) = 1, f (d) = logd. 在 7 中 执行 搜索 的 渐 近 运行 时 
间 现 在 变 成 了 多 少 ? 

项 目 

P-15.22 写 一 个 Python 类 ， 该 类 模拟 内 存 管理 的 最 佳 适应 、 最 坏 适 应 、 首 次 适应 和 循环 首次 适应 算 
法 。 用 实验 的 方法 确定 在 请 求 各 种 内 存 序列 的 情况 下 哪 种 方法 是 最 好 的 。 

P-15.23 写 一 个 Python 类 ,借助 (a, b) 树 实现 所 有 有 序 映射 ADT HE, HP a 和 4 是 作为 参数 传递 
给 构造 函数 的 整 型 常量 。 

P-15.24 实现 B 树 数据 结构 ， 假 设 一 个 块 的 大 小 为 1024 个 整 型 键 。 测 试 “磁盘 传输 ”所 需 的 数量 来 处 
理 一 个 映射 操作 序列 。 


拓展 阅读 


对 层次 存储 器 体系 结构 系统 研究 感 兴趣 的 读者 可 以 参考 Burger?" 等 人 的 书 或 者 Hennessy 和 
igi, dee oit Plead eta ee 
。 我 们 鼓励 对 进一步 研究 垃圾 收集 感 兴趣 的 读者 研究 Jones 和 Linsfe f B, Knuth? 对 于 外 
DL AE YR, Ullman?” 讨论 了 数据 库 系统 的 外 存 结构 。Gonnet 和 Baeza 
Yates? 的 手册 比较 了 多 个 不 同 的 排序 算法 的 性 能 ， 其 中 有 许多 是 外 部 存储 器 算法 。B 树 是 由 Bayer 和 
McCreight"” 和 Comerla 发 明 的 ， 并 对 该 数据 结构 提供 了 非常 好 的 概述 。Mehlhornra 和 Samet?" 的 书 
对 于 B 树 和 它们 的 变形 也 有 很 好 的 论述 。Aggarwal 和 Vitter” 研究 分 类 的 VO 复杂 性 及 相关 问题 ， 建 
立 了 上 界 和 下 界 。Goodrich 等 人 9! 研究 几 种 计算 几何 问题 的 IO 复杂 性 。 鼓 励 有 兴趣 进一步 研究 VO 
算法 的 读者 研究 Vitter??! 的 调查 论文 。 


附录 A | 


Data Structures and Algorithms in Python 


Python 中 的 字符 串 





字符 串 是 来 自 字 母 表 的 一 些 字符 序列 。 在 Python 中 ， 内 置 的 str 类 表示 基于 Unicode 国 
际 字 符 集 的 字符 串 、 一 个 16 位 的 字符 编码 ， 涵 盖 了 大 多 数 书面 的 语言 。Unicode 是 包括 基 
本 拉丁 文字 母 、 数 字 和 常见 符号 的 7 位 ASCII 字符 集 的 扩展 。 字 符 串 在 多 数 编程 应 用 中 特 
别 重 要 ， 因 为 文本 通常 用 于 输入 和 输出 。 

1.2.3 节 提 供 了 关于 str 类 的 基本 介绍 ， 包 括 使 用 的 字符 串 ， 如 'hello' 和 用 于 构造 一 个 典 
型 的 对 象 的 字符 串 表 示 形 式 的 语法 str(obj) 等 。1.3 节 进 一 步 讨 论 了 常用 的 运算 符 支 持 的 字符 
串 ， 例 如 使 用 “ +” 进行 连接 。 本 附录 作为 更 详细 的 参考 ， 描 述 字 符 串 支持 文本 处 理 的 快捷 
操作 。 为 了 描述 str 类 的 行为 ， 我 们 将 它 分 为 以 下 几 大 类 的 功能 。 

搜索 子 串 

操作 符 语 法 s 中 的 方法 ， 可 以 确定 给 定 的 模式 是 否 是 字符 串 s 的 子 串 。 表 A-1 描述 了 
几 种 相关 的 方法 ， 确 定 搜索 的 数量 和 索引 是 从 最 左边 或 最 右边 开始 。 表 中 的 每 个 郴 数 接 
收 两 个 可 选 的 参数 ， 分 别 为 start 和 end， 可 以 有 效 地 将 搜索 限制 到 start 和 end 之 间 ， 即 
s[start:end]。 例 如 ， 调 用 s.find (pattern, 5) 可 以 将 搜索 限制 到 s[5:]。 


表 A-1 搜索 子 串 的 方法 


调用 语法 ] 描 x 
s.count(pattern) 返回 与 pattern AP f f VC Be HA 
s.find(pattern) 返回 索引 最 左边 以 pattern 开始 ; 否则 返回 -1 
s.index(pattern) 和 find 方法 类 似 ， 但 是 如 果 没 有 找到 ， 会 提高 ValueError 
s.rfind(pattern) 返回 索引 最 右边 以 pattern 开始 ; 否则 返回 -1 
s.rindex(pattern) fil rfind 方法 类 似 ， 但 是 如 果 没 有 找到 ， 会 提高 ValueError 
构建 相关 的 字符 串 


在 Python 中 ,字符 串 是 不 可 变 的 ， 所 以 它们 的 方法 都 不 修改 现 有 的 字符 串 实例 。 然 而 ， 
许多 方法 返回 一 个 新 建 的 字符 串 ， 它 与 一 个 现 有 的 字符 串 密切 相关 。 表 A-2 总 结 了 这 类 方 
法 ， 其 中 包括 用 新 的 字符 串 替换 当前 字符 串 ， 更 改 字 母 的 大 小 写 ， 根 据 需 要 产生 一 个 宽度 固 
定 字符 串 ， 产 生 从 任 一 端 剥 离 无 关 字符 字符 串 的 备份 。 


表 A-2 相关 字符 串 的 方法 


调用 语法 描 x 
s.replace(old, new) 返回 一 用 新 匹配 项 替代 所 有 旧 匹 配 项 的 s 的 备份 
s.capitalize() 返回 其 拥有 的 第 一 个 字符 大 写 的 s 一 个 备份 
s.upper() 返回 所 有 字符 都 大 写 的 s 的 一 个 备份 
s.lower() 返回 所 有 字符 都 小 写 的 s 的 一 个 备份 
s.center(width) 返回 s 的 一 个 拷贝 ， 中 间 用 空格 填充 相应 的 宽度 


s.ljust(width) 返回 s 的 一 个 拷贝 ， 结 尾 用 空格 填充 相应 的 宽度 
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调用 语法 描 R 
s.rjust(width) 返回 s 的 一 个 拷贝 ,开头 用 空格 填充 相应 的 宽度 
s.zfill(width) 返回 s 的 一 个 拷贝 ， 开 头 用 0 填充 相应 的 宽度 
s.strip() 返回 s 的 一 个 拷贝 ， 删 除开 头 和 结尾 无 用 的 空白 
s.Istrip() 返回 s 的 一 个 拷贝 ， 删 除开 头 无 用 的 空白 
s.rstrip() 返回 s 的 一 个 拷贝 ， 删 除 结尾 无 用 的 空白 


表 中 几 个 函数 接收 的 可 选 参数 没有 详细 的 说 明 。 例 如 ，replace() 方法 默认 情况 下 替换 所 
有 不 重合 的 旧 有 模式 ,但 可 选 参数 可 以 限制 进行 蔡 换 的 数量 。 居 中 或 两 端 对 齐 处 理 文本 的 方 
法 使 用 空格 作为 默认 填充 字符 进行 填充 ， 但 是 可 选 填充 字符 可 以 被 指定 为 一 个 可 选 参数 。 

同样 ， 所 有 删除 字符 的 变形 默认 情况 下 都 是 删除 开头 和 结尾 的 空格 ， 但 是 一 个 可 选 的 参 
数 可 以 选 定 应 从 两 端 开始 删除 的 字符 。 

测试 布尔 条 件 

K A-3 包括 测试 一 个 字符 串 的 布尔 属性 ， 例 如 是 否 它 某 一 种 方式 开始 或 结束 ,或 其 字 
符 是 否 由 字母 、 数 字 、 空 白 等 的 组 成 的 方法 。 标 准 ASCI 字符 集 是 由 字母 字符 即 大写 A 一 Z 
和 小 写 a 一 z， 数 字 即 0 ~ 9, SA (包括 空格 、 制 表 符 、 换 行 符 和 回 车 ) 组 成 的 ， 被 视 为 字 
母 和 数字 的 字符 代码 推广 到 更 一 般 的 Unicode 字符 集合 。 


表 A-3 ”测试 布尔 条 件 的 方法 


调用 语法 fü xh 
s.startswith(pattern) 如 果 pattern 是 字符 串 s 的 前 级 ， 返 回 True 
s.endswith(pattern) 如 果 pattern 是 字符 串 s Haw, ile] True 
s.isspace() 如 果 非 空 字符 串 的 所 有 字符 是 空白 ， 返 回 True 
s.isalpha() 如 果 非 空 字符 串 的 所 有 字符 是 字母 ， 返 回 True 
s.islower() 如 果 所 有 字母 都 是 小 写 的 ， 返 回 True 
s.isupper() 如 果 所 有 字母 都 是 大 写 的 ， 返回 True 
s.isdigit() 如 果 非 空 字符 串 的 所 有 字符 都 是 在 0 和 9 之 间 ， 返回 True 
s.isdecimal() 如 果 非 空 字符 串 的 所 有 字符 代表 是 数字 0 一 9 包括 Unicode 等 价 物 ， 返 回 True 


如 果 非 空 字符 串 的 所 有 字符 都 是 数字 包括 Unicode 字符 (Ain, 0 一 9、 等 价 物 、 
分 数字 符 )， 则 返回 True 
s.isalnum() 如 果 非 空 字符 串 的 所 有 字符 都 是 字母 或 数字 (根据 上 述 定 义 )， 返 回 True 


s.isnumeric() 


拆 分 和 连接 字符 串 

K A-4 介 绍 了 Python 中 string 类 的 几 种 重要 方法 ， 用 来 将 一 系列 字符 串 序列 连接 起 
来 一 一 通过 使 用 分 隔 符 来 分 隔 每 对 序列 或 采取 现 有 的 字符 串 ， 并 根据 给 定 的 分 解 模式 确定 该 
字符 串 分 解 。 


R A-4 ” 拆 分 和 连接 字符 串 的 方法 


调用 方法 描 述 
sep.join(strings) 返回 给 定 字符 串 组 成 的 序列 ， 将 sep 作为 分 隔 符 插入 每 对 序列 之 间 
s.splitlines() 返回 字符 串 s 的 子 串 列表 ， 以 换行 符 分 隔 


返回 字符 串 s 的 子 串 列表 ， 以 sep 作为 分 隔 符 分 隔 count 次 。 如 果 不 指定 count， 则 分 
隔 所 有 ; 如 果 不 指定 sep, 则 使 用 空格 作为 分 隔 符 


s.split(sep, count) 
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CHE) 
调用 方法 描 述 
s.rsplit(sep, count) 类 似 split() 方法 ， 但 是 使 用 最 右边 出 现 的 sep 
s.partition(sep) 使 用 最 左边 出 现 的 sep 让 s = head + sep + tail, 返回 (head, sep, tail), ， 和 否则 返回 (s, ", " ) 
s.rpartition(sep) 使 用 最 右边 出 现 的 sep ib s = head + sep + tail, 返回 (head, sep, taiD) ， 和 否则 返回 (s, ", ") 


join) 方法 用 于 把 一 系列 的 字符 组 合成 字符 串 。 例 如 ，'and '.join(['red', 'green', 'blue']), 
结果 是 'red and green and blue'。 注 意 ， 分 隔 符 字 符 串 中 包含 空格 。 相 反 ， 命 令 'and'. 
join(['red', 'green', 'blue']) 会 产生 'redandgreenandblue' 的 结果 。 

X A-4 讨论 的 其 他 方法 提供 了 和 join0) 方法 相反 的 功能 ， 它 们 利用 给 定 的 分 隔 符 把 一 
个 字符 串 分 隔 成 一 个 子 串 的 序列 。 例 如 ， 命 令 'red and green and blue'.split('and ') 会 产生 结 
果 ["red, 'green', "blue']。 如 果 不 指 定 分 隔 符 或 者 分 隔 符 是 空 ， 就 利用 空格 作为 分 隔 符 。 因 
此 ，'red and green and blue'.split() 的 结果 是 ['red', 'and', 'green', 'and', 'blue']. 

字符 串 格 式 

str 类 的 格式 方法 组 成 了 包含 一 个 或 多 个 格式 化 的 参数 的 一 个 字符 串 。 语 法 s.format(arg0， 
argl, ，…) 调用 的 方法 ， 会 生成 一 个 或 多 个 参数 被 替换 的 格式 化 的 字符 串 的 预期 结果 。 举 一 
个 简单 的 例子 ， 表 达 式 'f had a little ()'.format('Mary', 'lamb') 会 产生 结果 'Mary had a little 
lamb'。 表 达 式 中 成 对 的 花 括 号 是 在 结果 中 被 替代 的 字段 的 占 位 符 。 默 认 情 况 下 ， 传 递 到 该 
函数 的 参数 替换 按照 先后 顺序 ， 因 此 Mary 替换 第 一 个 花 括号 ，lamb 替换 第 二 个 花 括号 。 然 
而 ,替代 模式 可 以 被 显 式 的 编号 改变 顺序 ， 或 者 可 以 在 多 个 位 置 使 用 同一 个 参数 。 比 如 ， 表 
达 式 '{0}, {0}, {0} your {1}'.format('row', 'boat') 会 产生 结果 'row, row, row your boat'。 

所 有 替代 模式 允许 使 用 填充 字符 和 对 齐 模 式 来 填充 参数 到 一 个 特定 的 宽度 。 比 如 ， 
'{:-^20}'.format('hello')。 在 这 个 例子 中 ， 连 字符 C) 作为 填充 字符 插入 字符 (^) 选 定 所 需 的 
字符 串 居中 ，20 是 参数 所 需 的 宽度 。 本 示例 的 结果 是 字符 串 '------- hello-------- '。 上 默认 情况 
下 ， 空 格 作 为 填充 字符 并 且 默 认 从 右边 开始 填充 。 

对 于 数值 类 型 ， 有 额外 的 格式 选项 。 如 果 其 宽度 说 明 开 头 是 0， 很 多 会 用 0 填充 而 不 
eS SAF. HAN, A RAAT LA eh '{}/{:02}/{:02}'.format(year, month, day) 转化 为 传统 格式 
"YYYY/MM/DD"。 整 数 可 以 转化 二 进 制 、 八 进 制 或 十 六 进 制 分 别 通过 添加 字符 b、o 或 x 
作为 数值 的 后 缀 。 一 个 浮 点 数 的 精度 被 小 数 点 和 小 数 点 后 所 需 的 位 数 指定 。 比 如 ， 表 达 式 
'{:.3}.format(2/3)' 产生 的 结果 是 字符 串 '0.667'， 精 确 到 小 数 点 后 三 位 。 一 个 程序 员 可 以 显 
示 指 定 使 用 定点 表示 法 (例如 0.667 ) 通过 添加 字符 f 作 为 后 级 ,或 者 科学 计数 法 (例如 ， 
6.667e — 01 ) 通过 添加 字符 e 作为 后 级 来 表示 小 数 。 
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Data Structures and Algorithms in Python 


有 用 的 数学 定理 





在 这 个 附录 中 ， 我 们 会 给 出 一 些 有 用 的 数学 定理 。 先 从 一 些 组 合 的 定义 和 定理 开始 。 
对 数 和 指数 
对 数 函 数 定义 为 
loga - c, a- b* 
下 面 是 对 数 和 指数 的 运算 法 则 : 
1 ) log, ac = log, a + log;c 
2 ) log, a/c = loga — logyc 
3) log, af = c logia 
4) log;a = (log.a) / log.b 
5) plte q = qlee? 
6) (b^y =b" 
7) b°b* ab 
8) b/b = b" * 
另外 ， 还 有 下 列 规 则 。 
命题 B-1: 4X a20, b»0, #Hc>atb, di 
log a+ log b «2logc - 2 
WEBB: 这 足以 显示 ab < cY4， 可 以 证 明 : 


_ a’ *2ab* b-a * 2ab- b? 
e 一 -一 一 -一 一 一 





4 
"Tae m 
_ (a+ bY - (a-b) (a+b) gE 
4 4 4 
& x a PRR In x = loge x, EP e= 2.71828…， 可 以 使 用 下 面 的 表达 式 来 表示 : 
e zl TM 
] 2! 3! 
55. 
2 3 
“=l Xy yZ y 
I! 2! 3! 
ETE ae eee Ae 
21 3! 4! 
有 很 多 有 用 的 不 等 式 和 这 些 函 数 有 关 ( 源 于 这 些 函 数 的 定义 )。 
命题 B-2: 4o x»- 1, 


x 
S < 
FF In(1 * x) x 


命题 B-3: 当 0 <x<1 时 ， 
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l+xier=< 


命题 B-4: 对 于 任何 两 个 正 实 数 工 和 7， 


取 整 函数 和 联系 

floor 和 ceiling 水 数 分 别 定义 如 下 : 

1 )Lxj 小 于 等 于 x 的 最 大 整数 。 

2 [x | 大 于 等 于 x 的 最 小 整数 。 

当 整 数 a 二 0, b> 0 时 ， 取 模 运算 定义 为 


amodb= a- = b 
b 


Wr 3e PRB AE SUN 


二 项 式 系数 为 


H E n! 
k) k\(n-k)! 


这 是 相当 于 一 个 定义 为 从 n MHRA PE 磊 个 不 同 项 目的 不 同 组 合 的 数目 《和 顺序 无 
X). "二 项 式 系数 ”一 名 源 于 二 项 式 展开 : 


by! = nn k pak 
(a+b) A 
也 有 以 下 的 关系 。 


命题 B-5: wRO<k<n, MBA 
k k 
n n n 
=| a 
B f k! 


n 
n= Jarn] (te | 
n 


e 





命题 B-6 (斯 特 林 公式 ): 


其 中 e(n) € Vm HAMAR. 

非 波 纳 问 级 数 是 一 些 数值 的 迭代 ， 比 如 当 n 三 2 时 , fo=0,Fi=1, 有 FF,=F_1+F,_2o 

命题 B-7 : wR F, 由 斐 波 纳 契 级 数 定义 ， 则 F,@(g")， 其 中 g =(1+V5)/2， 也 被 称 作 黄 
金 分 割 率 。 

求 和 

这 里 有 很 多 有 用 的 求 和 公式 。 

命题 B-8: 因数 求 和 


n 


VF = ad f) 
i-l 


i=l 
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提供 了 一 个 不 取决 于 i 的 变形 。 

命题 B-9: 变换 顺序 : 
> > fG)= >> fü.) 
id j=l jel i=l 


其 中 有 一 个 特殊 的 伸缩 和 公式 
> UG- fG-1)) = f() - f() 
Fl 


经 常 出 现在 数据 结构 或 算法 的 分 部 分 析 中 。 
以 下 是 其 他 一 些 经 常 出 现在 数据 结构 和 算法 分 析 中 的 求 和 公式 。 


命题 B-10: 》i=n(n+1)/2。 
i=l 


命题 B-11: Ji =n(n+ D(2n+ 0/6. 
i-l 
命题 B-12: 如 果 大 三 1 且 是 一 个 整数 常量 ， 那 么 
2f = O(n’) 


i=] 
另 一 个 常见 的 求 和 公式 是 几何 求 和 ，%a'， 对 于 任意 的 实数 0<a + 1。 
命题 B-13: 对 于 任意 实数 0<a 头 1, 有 


+1 
a” -1 





n 
S 
a = 
-0 a-l 


1 


命题 B-14: 对 于 任意 实数 0<a<1， 有 
a= 
i=0 l=a 
此 外 ， 还 有 两 个 常见 公式 的 组 合 ， 被 称 为 线性 指数 总 和 ， 它 有 以 下 扩展 。 
命题 B-15: 对 于 0<a 关 1 且 n 三 2， 有 





n (ns) (n*2) 


> ia’ a —(n4l)a""" +na 
id = 一 一 一 一 一 
(l-a) 


i-1 
第 n 个 的 谐 波 数 五, 被 定义 为 
H,- Y 
i! 
命题 B-16: wR H, on, WH, T Inn 9 (0). 
基本 概率 
回顾 概率 论 中 的 一 些 基本 公式 。 最 基本 的 是 关于 概率 的 任何 语句 都 是 定义 在 样本 空间 S 
上 的 。 样 本 空间 是 指 从 一 些 实验 中 可 能 出 现 的 所 有 结果 组 。 我 们 没有 从 正式 意义 上 定义 术语 
"outcomes" fll “experiment” ; 
例题 B-17 : E-A, eie BK AE ANUS hR RPHASMA VM 的 结果 ， 对 
于 每 种 不 同 的 结果 都 有 可 能 出 现 。 
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样本 空间 也 可 以 是 无 限 的 ， 如 例 B-2 所 示 。 
例题 B-18 : 考虑 这 样 一 个 实验 ， 投 搓 一 枚 硬币 ， 直 到 出 现 正 面 朝 上 为 止 。 这 个 实验 中 
样本 空间 是 无 限 的 ， 每 个 结果 都 是 i 次 反面 朝 上 后 接着 出 现 一 次 正面 朝 上 , i=1, 2, 3,…， 
概率 空间 是 一 个 样本 空间 S 和 概率 函数 Pr， 把 5 的 子 集 映射 到 实数 区 间 [0,1] 之 间 的 结 
果 。 在 数学 上 概率 的 概念 是 一 些 “ 事 件 ” 发 生 的 可 能 性 。 实 际 上 ,5 的 每 个 子 集 4 称 作 一 个 
事件 ， 概 率 函 数 Pr 被 认为 有 以 下 基本 属性 ， 当 事件 从 S 定义 时 : 
1) Pr(@)=0. 
2) Pr(S) = 1. 
3)0zPr(4) < 1, 对 于 任意 4 C5。 
4) 如 果 4,BCS 且 4mnB=O, 则 Pr U B) = Pr(A) + Pr(B). 
如 果 存 在 下 式 的 关系 ， 则 两 个 事件 4 和 B 相互 独立 : 
Pr(4 mnmB)=Pr(4).Pr(B) 
如 果 存 在 下 式 的 关系 ， 则 一 个 事件 的 集合 {41, Ar, …, An} 相互 独立 : 
Pr(4;, N Ai, N … A Ai) = Pr(Ai, )Pr(Ai,) … Pr(Ai,) 
对 于 任意 子 集 (45. Ain, is^ Ai] o 
条 件 概 率 表 示 为 Pr( JB) 是 指 在 事件 B 发 生 的 前 提 下 事件 4 发 生 的 概率 ， 被 定义 为 一 个 比率 
Pr(AN B) 
Pr(B) 





假定 Pr(B) > 0。 

使 用 随机 变量 来 处 理事 件 是 一 种 比较 好 的 方法 。 直 观 地 说 ， 随 机 变量 是 取决 于 一 些 实验 
结果 的 变量 的 值 。 实 际 上 ， 随 机 变量 是 函数 蕊 把 一 些 样本 空间 S 映射 到 实数 上 的 结果 。 随 机 
指示 变量 是 随机 变量 把 结果 映射 到 集合 (0,1) 上。 在 数据 结构 和 算法 分 析 中 ， 经 常 使 用 随机 
变量 以 描述 随机 算法 的 运行 时 间 。 在 这 种 情况 下 ， 样 本 空间 S 被 定义 为 在 算法 中 使 用 的 随 
机 源 可 能 出 现 的 所 有 结果 。 

我 们 对 一 个 随机 变量 的 典型 值 、 平 均值 或 者 “期 望 值 ”最 感 兴趣 。 随 机 变量 半 的 期 望 
值 定 义 为 


E(X)= Y xPr(X = x) 
X 


FLOR Alp BE LHE X Big XX pF ERRE O P BOE WS ee) ) o 
命题 B-19 (期 望 的 线性 运算 ): 假设 全 和 了 是 随机 变量 ,Cc 是 一 个 数字 ， 那 么 
E(X+ Y)-E(X) - E(Y) E E(cX)=cE(X) 
例题 B-20: fik X AMM, den S ACT RB AM ie, ABA E(X)=7。 
证 明 : 要 证 明 这 个 结论 , (IX, 和 无 是 随机 变量 分 别 对 应 于 每 个 角子 的 点 数 。 因 此 ， 
X= X; ( 即 它们 是 两 个 功能 相同 的 实例 ) 并 且 E(X) = EX, + X2) = EX) + E(X)。 每 个 结果 中 
每 个 点 数 出 现 的 概率 都 是 116。 因 此 ， 


E(x,) = 





2 3 4 6 
十 一 十 一 十 一 + 一 十 一 二 
6 6 6 6 


iD | ~ 


1 5 
6 6 
其 中 i= 12。 因 此 ，ECO =7。 [| 
两 个 随机 变量 蕊 和 了 是 独立 的 ， 如 果 对 任意 实数 x 和 ?有 
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Pr(X = x|Y = y) = Pr(X = x) 
命题 B-21: 如 果 两 个 随机 变量 了 和 了 是 独立 的 ， 那 么 
E(XY) = E(X)E(Y). 
例题 B-22 : JE X X —^- Ru X, ATAMARA dB L8 AMMR, MBA 
E(X) = 49/4, 
证 明 : {Bit X A Xp 4) EAR PAAR CS ERE XY, A XD 明显 是 独立 的 ， 因 此 
E (X) = E (X,X2) = E (X)) E (X2) = (7/2y. = 49/4 
下 面 的 定理 和 从 它 推 导出 的 推论 被 称 为 切 诺 夫 界限 。 m 
命题 B-23 : 假设 了 是 在 独立 0/1 有 限 数字 的 随机 变量 的 和 ， 并 且 针 的 期 望 >0， 那 么 
对 于 6>0， 


u 
eô 


有 用 的 数学 技术 

为 了 比较 不 同 函数 的 增长 率 ， 有 了 时候 可 以 运用 以 下 规则 。 

命题 B-24 ( 洛 必 达 法 则 ): 如 果 有 1lim, >œ f (n) =+ œ ŽE lim, >% g(n) 2 ^ o, APA 
lim, 一 oo f(n)/g(n) = lim, 一 oo f (ny/g' (n), XP f(n) 42 g'(n) DALA Kn) Fe g(n) 的 导数 。 

在 给 定 上 限 和 下 限 进行 求 和 时 ， 会 经 常用 到 拆 分 求 和 ， 如 下 所 示 : 


0 pA Y f@ 


i=j+l 
男 一 个 有 用 的 技术 是 由 积分 约束 的 求 和 。 如 果 f 是 一 个 非 减 的 函数 ， 那 么 ， 假 定 以 下 术 
语 有 定义 : 


| ras] poe 

a-l He a 
以 下 是 出 现在 分 而 治之 算法 分 析 中 的 递 推 关系 的 一 般 形 式 : 

T(n) = aT(n/b)+ f (n) 
其 中 常数 a 三 1 并且 b>1。 
命题 B-25: 假设 T(n) HERZL, MA 
1) 如 果 对 某 些 常数 &>0，ftn) ZON), AA T(n) X G(n*»), 
2) de SEL 60 REA k SO, ftn) LO(n™log‘n), AA Tn) X 9 "log n), 
3) 如 果 对 某 些 常数 8 0, fin) X Q(n"»""), 3t E. Je R af(n/b) < cn), AA T(n) X 
O(f(n)). 

这 一 命题 是 渐 近 地 表征 分 而 治之 算法 递 推 关 系 的 主 方法 。 
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数据 结构 与 算法 Python 语言 实现 


Data Structures and Algorithms in Python 


继 C、C++、Java 之 后 ， 采 用 Python 语言 讲解 数据 结构 与 算法 成 为 国内 外 高 校 的 新 选择 。 相 比 于 同类 
教材 ， 本 书 并 非 简单 地 替换 了 代码 部 分 ， 而 是 根据 Python 的 特点 重新 规划 篇 章 结 构 ， 从 而 更 加 符合 教学 需 
求 。 本 书 要 求 读者 具备 一 定 的 高 级 语言 基础 ， 快 速 入 门 Python 后 便 进 入 核心 思想 一 一 面向 对 象 编程 ， 接 着 

”重点 讲解 栈 、 队 列 、 表 、 树 和 图 等 内 容 ， 同 时 涵盖 文本 处 理 、DNA 序 列 比 对 和 搜索 引擎 索引 等 大 量 实例 。 


本 书 特色 


。 强调 面向 对 象 思想 ， 关 注 抽 象 数据 类 型 及 其 算法 实现 策略 ， 通 过 理论 方法 和 实验 方法 分 析 算 法 性 能 ， 
学 会 比较 和 权衡 不 同 策略 。 

基于 Python3 标 准 ， 对 于 书 中 讨论 的 数据 结构 均 给 出 了 完整 的 Python 实 现代 码 而 非 伪 代码 ， 并 提供 全 
部 源 代码 的 免费 下 载 。 

包含 约 500 幅 精心 设计 的 插图 ， 易 于 读者 理解 抽象 概念 ; 以 及 超过 750 道 练习 题 ， 便 于 读者 巩固 知识 、 
发 散 思维 或 开展 项 目 实践 。 
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